Attention Is All You Need

📋 Auf einen Blick

"Attention Is All You Need" hat 2017 die Transformer-Architektur vorgestellt — ein Modell, das komplett auf Attention-Mechanismen basiert und auf Recurrence (RNNs) und Convolutions verzichtet. Es wurde ursprünglich für maschinelle Übersetzung entwickelt, ist aber heute die Grundlage für GPT, BERT, LLaMA und praktisch jedes moderne LLM.

Das Problem vor Transformern

Vor 2017 dominierten Recurrent Neural Networks (RNNs) und LSTMs die Sprachverarbeitung. Diese Modelle verarbeiten Text sequenziell — Wort für Wort, von links nach rechts. Das hatte zwei gravierende Nachteile:

Langsames Training: Weil jedes Wort auf das vorherige warten muss, lässt sich die Berechnung nicht parallelisieren. Mehr GPUs helfen kaum.
Vergesslichkeit: Bei langen Texten "vergisst" das Modell den Anfang. Informationen über 100+ Tokens hinweg gehen verloren (das sogenannte Vanishing Gradient Problem).

Die Kernidee: Self-Attention

Der Transformer löst beide Probleme mit einem einzigen Mechanismus: Self-Attention. Statt Text sequenziell zu verarbeiten, schaut jedes Wort gleichzeitig auf alle anderen Wörter im Satz und berechnet, wie relevant jedes andere Wort für das aktuelle ist.

Technisch passiert das über drei Vektoren pro Wort: Query (Q), Key (K) und Value (V). Die Attention-Formel berechnet eine gewichtete Summe:

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

Das "√d_k" ist ein Skalierungsfaktor, der verhindert, dass die Dot-Products bei großen Dimensionen zu groß werden. Softmax wandelt die Scores in Wahrscheinlichkeiten um.

Diagramm wird geladen...

Multi-Head Attention

Eine einzelne Attention-Berechnung erfasst nur eine Art von Beziehung. Der Transformer verwendet daher Multi-Head Attention: Die Q/K/V-Vektoren werden in mehrere "Heads" aufgeteilt, jeder Head lernt eine andere Art von Beziehung (z.B. syntaktische Nähe, semantische Ähnlichkeit, Koreferenz).

Im Original-Paper werden 8 Heads verwendet. Die Ergebnisse aller Heads werden konkateniert und durch eine lineare Projektion zusammengeführt.

Encoder-Decoder Architektur

Der Original-Transformer besteht aus zwei Teilen:

Encoder: Verarbeitet den Input-Text und erstellt eine kontextreiche Repräsentation. Besteht aus 6 identischen Schichten mit Self-Attention und Feed-Forward-Netzwerk.
Decoder: Generiert den Output-Text Wort für Wort. Zusätzlich zur Self-Attention hat er Cross-Attention zum Encoder-Output. Ebenfalls 6 Schichten.

Moderne LLMs wie GPT verwenden nur den Decoder-Teil (autoregressive Modelle), während BERT nur den Encoder-Teil verwendet. Das zeigt, wie flexibel die Architektur ist.

Diagramm wird geladen...

Positional Encoding

Da der Transformer keine sequenzielle Verarbeitung hat, weiß er ohne Hilfe nicht, welches Wort an welcher Position steht. Positional Encoding löst das: Jedem Token wird ein Positionsvektor hinzugefügt, der auf Sinus- und Cosinus-Funktionen basiert.

Moderne Varianten wie RoPE (Rotary Position Embedding) haben diesen Mechanismus weiterentwickelt und ermöglichen deutlich längere Kontextfenster.

Warum war das Paper revolutionär?

Drei Gründe, warum "Attention Is All You Need" alles verändert hat:

Parallelisierung: Alle Attention-Berechnungen können gleichzeitig auf GPUs laufen. Das Training wurde um Größenordnungen schneller. Erst dadurch wurden Modelle mit Milliarden von Parametern praktikabel.
Lange Kontexte: Self-Attention verbindet jedes Token direkt mit jedem anderen. Es gibt keinen Informationsverlust über Distanz — das Modell kann Zusammenhänge über Tausende von Tokens erkennen.
Universelle Architektur: Transformer funktionieren nicht nur für Text. Dieselbe Architektur wird heute für Bilder (Vision Transformer), Audio (Whisper), Code (Codex) und multimodale Modelle eingesetzt.

Einfluss auf heutige Modelle

Praktisch jedes relevante AI-Modell basiert auf dem Transformer:

GPT-Serie (OpenAI): Decoder-only Transformer
BERT (Google): Encoder-only Transformer
LLaMA (Meta): Decoder-only mit Verbesserungen wie RMSNorm und SwiGLU
Claude (Anthropic): Transformer-basiert mit Constitutional AI
Mistral, Qwen, Gemma: Alle Transformer-Varianten

Quellen

Vaswani, A. et al. (2017). "Attention Is All You Need." arXiv:1706.03762