Papers
Retrieval-Augmented Generation (RAG)
Lewis et al., 2020 — Wie man LLMs mit externem Wissen verbindet, um Halluzinationen zu reduzieren und aktuelle Informationen zu liefern.
Retrieval-Augmented Generation (RAG) kombiniert ein LLM mit einer externen Wissensquelle. Statt sich nur auf das Training zu verlassen, sucht das Modell zuerst relevante Dokumente und nutzt diese als Kontext für die Antwort. Das reduziert Halluzinationen und ermöglicht aktuelle, quellenbasierte Antworten.
Das Problem: LLMs und ihr statisches Wissen
LLMs haben ein fundamentales Problem: Ihr Wissen ist auf den Trainings-Zeitpunkt eingefroren. Sie können nicht auf aktuelle Informationen zugreifen, kennen keine internen Firmendokumente und halluzinieren plausibel klingende aber falsche Antworten, wenn sie etwas nicht wissen.
Vor RAG gab es zwei Ansätze: Entweder das Modell neu trainieren (teuer und langsam) oder alles in den Prompt packen (begrenzt durch das Kontextfenster). Beides skaliert nicht.
Die RAG-Architektur
Das Paper von Lewis et al. schlägt eine elegante Lösung vor: Man kombiniert einen Retriever (Suchkomponente) mit einem Generator (LLM) zu einem End-to-End-System.
Der Ablauf in drei Schritten:
- 1. Retrieval: Die Nutzerfrage wird in einen Vektor umgewandelt (Embedding). Dieser Vektor wird gegen eine Datenbank von Dokument-Vektoren verglichen. Die ähnlichsten Dokumente werden zurückgegeben.
- 2. Augmentation: Die gefundenen Dokumente werden zusammen mit der ursprünglichen Frage als Kontext an das LLM übergeben.
- 3. Generation: Das LLM generiert eine Antwort basierend auf der Frage UND den bereitgestellten Dokumenten.
Zwei Varianten: RAG-Sequence und RAG-Token
Das Paper beschreibt zwei Varianten des Modells:
- RAG-Sequence: Das Modell wählt ein Dokument und generiert die gesamte Antwort basierend auf diesem einen Dokument. Gut für Aufgaben, bei denen eine einzelne Quelle ausreicht.
- RAG-Token: Bei jedem generierten Token kann das Modell auf ein anderes Dokument zurückgreifen. Das ermöglicht Antworten, die Informationen aus mehreren Quellen kombinieren.
Warum RAG so wichtig ist
- Weniger Halluzinationen: Das Modell kann auf echte Dokumente verweisen statt zu raten. Antworten sind nachprüfbar und quellenbasiert.
- Aktuelles Wissen: Die Wissensbasis kann jederzeit aktualisiert werden, ohne das Modell neu zu trainieren. Neue Dokumente sind sofort verfügbar.
- Datenschutz: Firmendokumente bleiben in der eigenen Infrastruktur. Das LLM muss nicht mit sensiblen Daten trainiert werden — es bekommt sie nur im Moment der Anfrage.
- Kosteneffizienz: Statt ein riesiges Modell mit allem Wissen zu trainieren, reicht ein kleineres Modell plus guter Retriever.
RAG in der Praxis heute
Das RAG-Pattern hat sich als Standard-Architektur für Enterprise-AI etabliert. In der Praxis kommen heute folgende Komponenten zum Einsatz:
- Vector Databases: Chroma, Qdrant, Weaviate, pgvector
- Embedding-Modelle: sentence-transformers, OpenAI Embeddings, Nomic
- Chunking-Strategien: Semantic Chunking, Recursive Character Splitting
- Hybrid Search: Kombination aus Vektor-Suche und klassischer Keyword-Suche (BM25)
Für einen praktischen Einstieg in RAG mit konkretem Setup-Guide, siehe unseren Artikel RAG Complete Guide.
Quellen
- Lewis, P. et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." arXiv:2005.11401
War dieser Artikel hilfreich?
Nächster Schritt: vom Wissen in die Umsetzung
Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.
- Lokal und self-hosted gedacht
- Dokumentiert und auditierbar
- Aus eigener Runtime entwickelt
- Made in Austria