Retrieval-Augmented Generation (RAG) Paper erklärt | AI Engineering Wiki

📋 Auf einen Blick

Retrieval-Augmented Generation (RAG) kombiniert ein LLM mit einer externen Wissensquelle. Statt sich nur auf das Training zu verlassen, sucht das Modell zuerst relevante Dokumente und nutzt diese als Kontext für die Antwort. Das reduziert Halluzinationen und ermöglicht aktuelle, quellenbasierte Antworten.

Das Problem: LLMs und ihr statisches Wissen

LLMs haben ein fundamentales Problem: Ihr Wissen ist auf den Trainings-Zeitpunkt eingefroren. Sie können nicht auf aktuelle Informationen zugreifen, kennen keine internen Firmendokumente und halluzinieren plausibel klingende aber falsche Antworten, wenn sie etwas nicht wissen.

Vor RAG gab es zwei Ansätze: Entweder das Modell neu trainieren (teuer und langsam) oder alles in den Prompt packen (begrenzt durch das Kontextfenster). Beides skaliert nicht.

Die RAG-Architektur

Das Paper von Lewis et al. schlägt eine elegante Lösung vor: Man kombiniert einen Retriever (Suchkomponente) mit einem Generator (LLM) zu einem End-to-End-System.

Der Ablauf in drei Schritten:

1. Retrieval: Die Nutzerfrage wird in einen Vektor umgewandelt (Embedding). Dieser Vektor wird gegen eine Datenbank von Dokument-Vektoren verglichen. Die ähnlichsten Dokumente werden zurückgegeben.
2. Augmentation: Die gefundenen Dokumente werden zusammen mit der ursprünglichen Frage als Kontext an das LLM übergeben.
3. Generation: Das LLM generiert eine Antwort basierend auf der Frage UND den bereitgestellten Dokumenten.

Diagramm wird geladen...

Zwei Varianten: RAG-Sequence und RAG-Token

Das Paper beschreibt zwei Varianten des Modells:

RAG-Sequence: Das Modell wählt ein Dokument und generiert die gesamte Antwort basierend auf diesem einen Dokument. Gut für Aufgaben, bei denen eine einzelne Quelle ausreicht.
RAG-Token: Bei jedem generierten Token kann das Modell auf ein anderes Dokument zurückgreifen. Das ermöglicht Antworten, die Informationen aus mehreren Quellen kombinieren.

Diagramm wird geladen...

Warum RAG so wichtig ist

Weniger Halluzinationen: Das Modell kann auf echte Dokumente verweisen statt zu raten. Antworten sind nachprüfbar und quellenbasiert.
Aktuelles Wissen: Die Wissensbasis kann jederzeit aktualisiert werden, ohne das Modell neu zu trainieren. Neue Dokumente sind sofort verfügbar.
Datenschutz: Firmendokumente bleiben in der eigenen Infrastruktur. Das LLM muss nicht mit sensiblen Daten trainiert werden — es bekommt sie nur im Moment der Anfrage.
Kosteneffizienz: Statt ein riesiges Modell mit allem Wissen zu trainieren, reicht ein kleineres Modell plus guter Retriever.

RAG in der Praxis heute

Das RAG-Pattern hat sich als Standard-Architektur für Enterprise-AI etabliert. In der Praxis kommen heute folgende Komponenten zum Einsatz:

Vector Databases: Chroma, Qdrant, Weaviate, pgvector
Embedding-Modelle: sentence-transformers, OpenAI Embeddings, Nomic
Chunking-Strategien: Semantic Chunking, Recursive Character Splitting
Hybrid Search: Kombination aus Vektor-Suche und klassischer Keyword-Suche (BM25)

💡 Praktischer Einstieg

Für einen praktischen Einstieg in RAG mit konkretem Setup-Guide, siehe unseren Artikel RAG Complete Guide.

Quellen

Lewis, P. et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." arXiv:2005.11401