Zum Inhalt springen
>_<
AI EngineeringWiki

Papers

Retrieval-Augmented Generation (RAG)

Lewis et al., 2020 — Wie man LLMs mit externem Wissen verbindet, um Halluzinationen zu reduzieren und aktuelle Informationen zu liefern.

Lesezeit: 10 minZuletzt aktualisiert: März 2026
📋 Auf einen Blick

Retrieval-Augmented Generation (RAG) kombiniert ein LLM mit einer externen Wissensquelle. Statt sich nur auf das Training zu verlassen, sucht das Modell zuerst relevante Dokumente und nutzt diese als Kontext für die Antwort. Das reduziert Halluzinationen und ermöglicht aktuelle, quellenbasierte Antworten.

Das Problem: LLMs und ihr statisches Wissen

LLMs haben ein fundamentales Problem: Ihr Wissen ist auf den Trainings-Zeitpunkt eingefroren. Sie können nicht auf aktuelle Informationen zugreifen, kennen keine internen Firmendokumente und halluzinieren plausibel klingende aber falsche Antworten, wenn sie etwas nicht wissen.

Vor RAG gab es zwei Ansätze: Entweder das Modell neu trainieren (teuer und langsam) oder alles in den Prompt packen (begrenzt durch das Kontextfenster). Beides skaliert nicht.

Die RAG-Architektur

Das Paper von Lewis et al. schlägt eine elegante Lösung vor: Man kombiniert einen Retriever (Suchkomponente) mit einem Generator (LLM) zu einem End-to-End-System.

Der Ablauf in drei Schritten:

  • 1. Retrieval: Die Nutzerfrage wird in einen Vektor umgewandelt (Embedding). Dieser Vektor wird gegen eine Datenbank von Dokument-Vektoren verglichen. Die ähnlichsten Dokumente werden zurückgegeben.
  • 2. Augmentation: Die gefundenen Dokumente werden zusammen mit der ursprünglichen Frage als Kontext an das LLM übergeben.
  • 3. Generation: Das LLM generiert eine Antwort basierend auf der Frage UND den bereitgestellten Dokumenten.
Diagramm wird geladen...

Zwei Varianten: RAG-Sequence und RAG-Token

Das Paper beschreibt zwei Varianten des Modells:

  • RAG-Sequence: Das Modell wählt ein Dokument und generiert die gesamte Antwort basierend auf diesem einen Dokument. Gut für Aufgaben, bei denen eine einzelne Quelle ausreicht.
  • RAG-Token: Bei jedem generierten Token kann das Modell auf ein anderes Dokument zurückgreifen. Das ermöglicht Antworten, die Informationen aus mehreren Quellen kombinieren.
Diagramm wird geladen...

Warum RAG so wichtig ist

  • Weniger Halluzinationen: Das Modell kann auf echte Dokumente verweisen statt zu raten. Antworten sind nachprüfbar und quellenbasiert.
  • Aktuelles Wissen: Die Wissensbasis kann jederzeit aktualisiert werden, ohne das Modell neu zu trainieren. Neue Dokumente sind sofort verfügbar.
  • Datenschutz: Firmendokumente bleiben in der eigenen Infrastruktur. Das LLM muss nicht mit sensiblen Daten trainiert werden — es bekommt sie nur im Moment der Anfrage.
  • Kosteneffizienz: Statt ein riesiges Modell mit allem Wissen zu trainieren, reicht ein kleineres Modell plus guter Retriever.

RAG in der Praxis heute

Das RAG-Pattern hat sich als Standard-Architektur für Enterprise-AI etabliert. In der Praxis kommen heute folgende Komponenten zum Einsatz:

  • Vector Databases: Chroma, Qdrant, Weaviate, pgvector
  • Embedding-Modelle: sentence-transformers, OpenAI Embeddings, Nomic
  • Chunking-Strategien: Semantic Chunking, Recursive Character Splitting
  • Hybrid Search: Kombination aus Vektor-Suche und klassischer Keyword-Suche (BM25)
💡 Praktischer Einstieg

Für einen praktischen Einstieg in RAG mit konkretem Setup-Guide, siehe unseren Artikel RAG Complete Guide.

Quellen

  • Lewis, P. et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." arXiv:2005.11401

War dieser Artikel hilfreich?

Nächster Schritt: vom Wissen in die Umsetzung

Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.

Warum AI Engineering
  • Lokal und self-hosted gedacht
  • Dokumentiert und auditierbar
  • Aus eigener Runtime entwickelt
  • Made in Austria
Kein Ersatz für Rechtsberatung.