methoden:transformer
Dies ist eine alte Version des Dokuments!
Inhaltsverzeichnis
05. Transformer-Architektur
Transformer sind die Architektur-Grundlage moderner Sprachmodelle wie GPT. Sie wurden 2017 in dem Paper „Attention is All You Need“ vorgestellt.
Hauptkonzepte
- Self-Attention: Das Modell bezieht sich auf alle Eingabewörter gleichzeitig, nicht sequentiell.
- Encoder-Decoder-Struktur: Ursprünglich für Übersetzungsaufgaben, später weiterentwickelt.
- Skalierbarkeit: Ermöglicht paralleles Training riesiger Modelle.
Beispiel
Ein Transformer kann den Zusammenhang zwischen Wörtern wie „Bank“ und „Fluss“ erkennen – abhängig vom Kontext.
Weiterführende Seiten
methoden transformer architektur
methoden/transformer.1746897496.txt.gz · Zuletzt geändert: 2025/05/10 19:18 von rene
