Papers
Attention Is All You Need
Vaswani et al., 2017 — Das Paper, das die Transformer-Architektur eingeführt und damit die gesamte moderne AI ermöglicht hat.
"Attention Is All You Need" hat 2017 die Transformer-Architektur vorgestellt — ein Modell, das komplett auf Attention-Mechanismen basiert und auf Recurrence (RNNs) und Convolutions verzichtet. Es wurde ursprünglich für maschinelle Übersetzung entwickelt, ist aber heute die Grundlage für GPT, BERT, LLaMA und praktisch jedes moderne LLM.
Das Problem vor Transformern
Vor 2017 dominierten Recurrent Neural Networks (RNNs) und LSTMs die Sprachverarbeitung. Diese Modelle verarbeiten Text sequenziell — Wort für Wort, von links nach rechts. Das hatte zwei gravierende Nachteile:
- Langsames Training: Weil jedes Wort auf das vorherige warten muss, lässt sich die Berechnung nicht parallelisieren. Mehr GPUs helfen kaum.
- Vergesslichkeit: Bei langen Texten "vergisst" das Modell den Anfang. Informationen über 100+ Tokens hinweg gehen verloren (das sogenannte Vanishing Gradient Problem).
Die Kernidee: Self-Attention
Der Transformer löst beide Probleme mit einem einzigen Mechanismus: Self-Attention. Statt Text sequenziell zu verarbeiten, schaut jedes Wort gleichzeitig auf alle anderen Wörter im Satz und berechnet, wie relevant jedes andere Wort für das aktuelle ist.
Technisch passiert das über drei Vektoren pro Wort: Query (Q), Key (K) und Value (V). Die Attention-Formel berechnet eine gewichtete Summe:
Das "√d_k" ist ein Skalierungsfaktor, der verhindert, dass die Dot-Products bei großen Dimensionen zu groß werden. Softmax wandelt die Scores in Wahrscheinlichkeiten um.
Multi-Head Attention
Eine einzelne Attention-Berechnung erfasst nur eine Art von Beziehung. Der Transformer verwendet daher Multi-Head Attention: Die Q/K/V-Vektoren werden in mehrere "Heads" aufgeteilt, jeder Head lernt eine andere Art von Beziehung (z.B. syntaktische Nähe, semantische Ähnlichkeit, Koreferenz).
Im Original-Paper werden 8 Heads verwendet. Die Ergebnisse aller Heads werden konkateniert und durch eine lineare Projektion zusammengeführt.
Encoder-Decoder Architektur
Der Original-Transformer besteht aus zwei Teilen:
- Encoder: Verarbeitet den Input-Text und erstellt eine kontextreiche Repräsentation. Besteht aus 6 identischen Schichten mit Self-Attention und Feed-Forward-Netzwerk.
- Decoder: Generiert den Output-Text Wort für Wort. Zusätzlich zur Self-Attention hat er Cross-Attention zum Encoder-Output. Ebenfalls 6 Schichten.
Moderne LLMs wie GPT verwenden nur den Decoder-Teil (autoregressive Modelle), während BERT nur den Encoder-Teil verwendet. Das zeigt, wie flexibel die Architektur ist.
Positional Encoding
Da der Transformer keine sequenzielle Verarbeitung hat, weiß er ohne Hilfe nicht, welches Wort an welcher Position steht. Positional Encoding löst das: Jedem Token wird ein Positionsvektor hinzugefügt, der auf Sinus- und Cosinus-Funktionen basiert.
Moderne Varianten wie RoPE (Rotary Position Embedding) haben diesen Mechanismus weiterentwickelt und ermöglichen deutlich längere Kontextfenster.
Warum war das Paper revolutionär?
Drei Gründe, warum "Attention Is All You Need" alles verändert hat:
- Parallelisierung: Alle Attention-Berechnungen können gleichzeitig auf GPUs laufen. Das Training wurde um Größenordnungen schneller. Erst dadurch wurden Modelle mit Milliarden von Parametern praktikabel.
- Lange Kontexte: Self-Attention verbindet jedes Token direkt mit jedem anderen. Es gibt keinen Informationsverlust über Distanz — das Modell kann Zusammenhänge über Tausende von Tokens erkennen.
- Universelle Architektur: Transformer funktionieren nicht nur für Text. Dieselbe Architektur wird heute für Bilder (Vision Transformer), Audio (Whisper), Code (Codex) und multimodale Modelle eingesetzt.
Einfluss auf heutige Modelle
Praktisch jedes relevante AI-Modell basiert auf dem Transformer:
- GPT-Serie (OpenAI): Decoder-only Transformer
- BERT (Google): Encoder-only Transformer
- LLaMA (Meta): Decoder-only mit Verbesserungen wie RMSNorm und SwiGLU
- Claude (Anthropic): Transformer-basiert mit Constitutional AI
- Mistral, Qwen, Gemma: Alle Transformer-Varianten
Quellen
- Vaswani, A. et al. (2017). "Attention Is All You Need." arXiv:1706.03762
War dieser Artikel hilfreich?
Nächster Schritt: vom Wissen in die Umsetzung
Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.
- Lokal und self-hosted gedacht
- Dokumentiert und auditierbar
- Aus eigener Runtime entwickelt
- Made in Austria