====== 05. Transformer-Architektur ====== Siehe auch: [[theorie:begriffe|Transformer-Architektur]]\\ \\ Transformer sind die Architektur-Grundlage moderner Sprachmodelle wie GPT. Sie wurden 2017 in dem Paper „Attention is All You Need“ vorgestellt. ==== Hauptkonzepte ==== * **[[glossar:self-attention|Self-Attention]]**: Das Modell bezieht sich auf alle Eingabewörter gleichzeitig, nicht sequentiell. * **Encoder-Decoder-Struktur**: Ursprünglich für Übersetzungsaufgaben, später weiterentwickelt. * **Skalierbarkeit**: Ermöglicht paralleles Training riesiger Modelle. ==== Beispiel ==== Ein Transformer kann den Zusammenhang zwischen Wörtern wie „Bank“ und „Fluss“ erkennen – abhängig vom Kontext. ==== Weiterführende Seiten ==== * [[methoden:llm|[[methoden:llm|Large Language Models]]]] * [[glossar:transformer|Glossar: Transformer]] {{tag>methoden transformer architektur}}