Zum Inhalt springen
>_<
AI EngineeringWiki

Grundlagen

Was ist ein Large Language Model (LLM)?

Wie Sprachmodelle funktionieren, warum sie manchmal halluzinieren und was du brauchst um sie lokal zu betreiben.

Lesezeit: 12 minZuletzt aktualisiert: März 2026
Was ist ein Large Language Model?
Was ist ein Large Language Model?
📋 Auf einen Blick

Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde und Sprache versteht, generiert und übersetzt. LLMs sagen Wort für Wort vorher, welches Token als nächstes kommen sollte. Sie können lokal auf eigener Hardware laufen — ohne Cloud, ohne Abhängigkeit.

Was genau ist ein LLM?

Ein Large Language Model ist eine Form von künstlicher Intelligenz, die auf der Transformer-Architektur basiert. Das Modell wurde mit Milliarden von Texten aus dem Internet trainiert — Bücher, Wikipedia, Foren, wissenschaftliche Arbeiten — und hat dabei statistische Muster in Sprache gelernt.

Der Kern: Ein LLM berechnet für jedes mögliche nächste Wort eine Wahrscheinlichkeit und wählt dann das wahrscheinlichste. Das klingt simpel, aber bei 70 Milliarden Parametern und 128.000 Tokens Kontext entstehen erstaunlich gute Ergebnisse.

Die Transformer-Architektur (vereinfacht)

Seit dem Paper "Attention is All You Need" (2017) basieren alle modernen LLMs auf Transformern. Die Kernidee: Jedes Wort im Text "schaut" auf alle anderen Wörter gleichzeitig und lernt, welche Zusammenhänge wichtig sind.

Diagramm wird geladen...
ℹ️ Was ist Self-Attention?

Self-Attention ist der Mechanismus, mit dem das Modell versteht, welche Wörter in einem Satz zusammengehören. Wenn du schreibst "Der Hund jagte die Katze, weil er hungrig war" — Attention hilft dem Modell zu verstehen, dass "er" sich auf "Hund" bezieht, nicht auf "Katze".

Tokens: Wie LLMs Text verarbeiten

LLMs lesen keine Wörter — sie lesen Tokens. Ein Token ist ein Textfragment, oft ein Wort oder Wort-Teil. "Datenschutzgrundverordnung" wird zum Beispiel in 3-4 Tokens zerlegt. Englische Texte brauchen weniger Tokens als deutsche, weil die meisten Modelle auf englischen Daten trainiert wurden.

Diagramm wird geladen...
💡 Faustregel für Tokens

1 Token ist ungefähr 3/4 eines englischen Wortes. Für Deutsch rechne mit 1 Token pro halbes Wort. Ein typischer Absatz (100 Wörter) sind ca. 130-150 Tokens. Context Window von 128K = ca. 200 Seiten Text.

LLM vs. Suchmaschine

Ein häufiges Missverständnis: LLMs sind keine Suchmaschinen. Sie "wissen" nichts — sie berechnen, welche Antwort statistisch am wahrscheinlichsten ist.

EigenschaftSuchmaschine (Google)LLM (ChatGPT, Llama)
DatenquelleLive-Index des InternetsTrainings-Daten (Stichtag)
AktualitätEchtzeitWissen endet am Trainings-Cutoff
AntwortformatLinks zu WebseitenFließtext, Code, Tabellen
GenauigkeitQuelle prüfbarKann halluzinieren (erfundene Fakten)
PersonalisierungBasierend auf SuchhistorieBasierend auf Konversation
KostenKostenlos (mit Werbung)API-Kosten oder lokale Hardware

Halluzinationen: Wenn LLMs lügen

LLMs können Fakten erfinden, die überzeugend klingen aber falsch sind. Das passiert, weil sie nicht "wissen" — sie berechnen statistische Wahrscheinlichkeiten. Wenn keine gute Antwort in den Trainingsdaten war, generieren sie trotzdem etwas Plausibles.

⚠️ Halluzinations-Risiko

LLMs erfinden Zitate, Gesetze, URLs und Statistiken. Besonders gefährlich bei: juristischen Texten, medizinischen Ratschlägen, historischen Fakten und technischen Spezifikationen. IMMER die Ausgabe verifizieren, bevor du sie weiterverwendest.

💡 Halluzinationen reduzieren

RAG (Retrieval Augmented Generation) ist die beste Methode: Statt das Modell "raten" zu lassen, fütterst du es mit echten Dokumenten als Kontext. Das Modell antwortet dann basierend auf deinen Daten statt auf seinen Trainingsdaten. Mehr dazu im RAG Complete Guide.

Modellgrößen: Von 7B bis 70B

"B" steht für Milliarden Parameter. Mehr Parameter bedeutet mehr "Wissen" und bessere Qualität — aber auch mehr VRAM und langsamere Antworten. Die Kunst liegt im richtigen Trade-off.

GrößeVRAM (Q4)Speed (RTX 3090)QualitätBeispiel-Modelle
7-8B~5 GB~112 tok/sGut für einfache TasksLlama 3.3 8B, Mistral 7B, Qwen 2.5 7B
13-14B~10 GB43-57 tok/sSolide AllrounderQwen3 14B, DeepSeek R1 14B
24-32B~16-20 GB~20-30 tok/sNahe Cloud-QualitätMistral Small 3.1 24B, Qwen 2.5 32B
70B~40 GBPasst NICHT auf 24 GB GPUBeste lokale QualitätLlama 3.3 70B, Qwen 2.5 72B
⚠️ 70B braucht mehr als 24 GB VRAM

Ein 70B Modell in Q4_K_M Quantisierung braucht ca. 40 GB VRAM. Das passt NICHT auf eine einzelne RTX 3090 oder RTX 4090 (jeweils 24 GB). Für 70B brauchst du 48 GB+ (z.B. 2x RTX 3090 oder eine RTX 6000 Ada). Mit 24 GB VRAM ist bei ca. 34B Modellen Schluss.

💡 Hardware-Empfehlung

RTX 4060 (8 GB VRAM): 7B Modelle problemlos. RTX 4070 Ti Super (16 GB): Bis 14B komfortabel. RTX 3090/4090 (24 GB): Bis 32-34B quantisiert. Die RTX 3090 gebraucht (EUR 750-1.123) bleibt der Value King für lokale AI.

Quantisierung: Grosse Modelle auf kleiner Hardware

Quantisierung reduziert die Präzision der Modell-Gewichte von 32-Bit Gleitkommazahlen auf 4 oder 8 Bit. Das halbiert den VRAM-Bedarf bei minimalen Qualitätsverlusten.

FormatGröße vs. OriginalQualitätEmpfehlung
FP16 / BF1650%100% (verlustfrei)Wenn VRAM kein Problem
Q5_K_M~35%~99%Höchste Qualität bei Kompression
Q4_K_M~25%~95%Bester Trade-off (Standard)
Q3_K_M~20%~85%Nur wenn VRAM extrem knapp
ℹ️ Info

Bei Ollama sind die meisten Modelle standardmäßig in Q4_K_M quantisiert. Du musst nichts extra konfigurieren — einfach ollama run llama3.3 und los.

Lokal vs. Cloud: Wo soll das LLM laufen?

Die Kernfrage für jedes Unternehmen: Eigene Hardware oder Cloud-API? Beides hat seinen Platz.

KriteriumCloud-APILokal (Self-hosted)
QualitätBeste verfügbare ModelleFür einfache Tasks ~95% gleichwertig, bei Reasoning 20-25% schlechter
DatenschutzDaten gehen an Dritte (USA)Daten bleiben bei dir (DSGVO)
Kosten pro MonatEUR 50-500+ (nutzungsabhängig)~EUR 49 Strom (AT, 50% Last) + EUR 750-2.000 Hardware einmalig
Hardware nötigNeinGPU ab EUR 350, RTX 3090 gebraucht ab EUR 750
VerfügbarkeitInternet nötigLäuft offline
WartungKeineUpdates, Monitoring (~1h/Monat)

Ehrlicher Benchmark: Cloud vs. Lokal

Die Qualitätslücke zwischen Cloud-Modellen und lokalen Modellen ist real. Hier sind ehrliche Vergleichswerte (Stand März 2026):

BenchmarkGPT-4o (Cloud)Llama 3.3 70B (Lokal)Quelle
MMLU (Wissen)85.9%86.0%Vellum
HumanEval (Code)84%88.4%Vellum / Bind AI
IFEval (Anweisungen)84.692.1Vellum
MATH (Mathematik)77%Vellum
ℹ️ Benchmarks richtig lesen

Llama 3.3 70B übertrifft GPT-4o in einigen Benchmarks (MMLU, HumanEval, IFEval). Aber: 70B passt NICHT auf eine einzelne 24 GB GPU. Für lokale Nutzung sind 8B-34B Modelle realistisch — und dort ist die Lücke zu Cloud-Modellen größer, besonders bei komplexem Reasoning.

⚠️ Die Qualitätslücke ist REAL

Vor allem bei komplexem Reasoning (logische Schlüsse, mehrstufige Analyse, juristische Argumentation) liegt Cloud deutlich vorne. Lokale Modelle sind dort nicht "fast so gut" — sie sind messbar schlechter. Das zu verschweigen wäre unehrlich.

💡 Wo lokal trotzdem reicht

Für 80% der alltäglichen Tasks (Daten-Extraktion, Klassifikation, einfache Q&A, Zusammenfassungen) sind lokale Modelle ausreichend. Für komplexes Reasoning: Cloud-API als Backup nutzen. Der ehrlichste Ansatz ist Hybrid — lokal wo es reicht, Cloud wo es zählt.

💡 Unsere Empfehlung

Starte lokal mit Ollama + einem 7B oder 14B Modell. Für Aufgaben wo die Qualität kritisch ist (z.B. Verträge, komplexe Analysen), nutze eine Cloud-API als Backup. Das spart Geld und hält deine Daten unter Kontrolle. Mehr dazu: Lokal vs. Cloud: Der TCO-Vergleich

In 5 Minuten loslegen

Du brauchst kein ML-Studium um ein LLM lokal zu betreiben. Mit Ollama geht das in 3 Schritten:

1

Ollama installieren

Download von ollama.com — gibt es für Windows, Mac und Linux.

2

Modell starten

ollama run llama3.3
3

Fragen stellen

Das Modell läuft auf deiner GPU. Keine Cloud, keine API-Keys, keine Kosten. Die REST-API ist unter http://localhost:11434 erreichbar.

Das Wichtigste

  • LLMs sagen das nächste Token vorher — sie 'wissen' nichts, sie berechnen Wahrscheinlichkeiten.
  • Mehr Parameter = bessere Qualität, aber mehr VRAM und langsamer. Q4_K_M Quantisierung ist der beste Trade-off.
  • LLMs halluzinieren. Kritische Ausgaben immer verifizieren, RAG reduziert das Risiko deutlich.
  • Lokale LLMs auf eigener Hardware (Ollama) sind DSGVO-konform. RTX 3090 bei 50% Last: ca. EUR 49/Monat Strom (AT: EUR 0,34/kWh).
  • Für den Einstieg: Ollama installieren, llama3.3 starten, läuft in 5 Minuten.

Quellen

War dieser Artikel hilfreich?

Nächster Schritt: vom Wissen in die Umsetzung

Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.

Warum AI Engineering
  • Lokal und self-hosted gedacht
  • Dokumentiert und auditierbar
  • Aus eigener Runtime entwickelt
  • Made in Austria
Kein Ersatz für Rechtsberatung.