Was ist ein LLM? Large Language Models erklärt | AI Engineering Wiki

📋 Auf einen Blick

Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde und Sprache versteht, generiert und übersetzt. LLMs sagen Wort für Wort vorher, welches Token als nächstes kommen sollte. Sie können lokal auf eigener Hardware laufen — ohne Cloud, ohne Abhängigkeit.

Was genau ist ein LLM?

Ein Large Language Model ist eine Form von künstlicher Intelligenz, die auf der Transformer-Architektur basiert. Das Modell wurde mit Milliarden von Texten aus dem Internet trainiert — Bücher, Wikipedia, Foren, wissenschaftliche Arbeiten — und hat dabei statistische Muster in Sprache gelernt.

Der Kern: Ein LLM berechnet für jedes mögliche nächste Wort eine Wahrscheinlichkeit und wählt dann das wahrscheinlichste. Das klingt simpel, aber bei 70 Milliarden Parametern und 128.000 Tokens Kontext entstehen erstaunlich gute Ergebnisse.

Die Transformer-Architektur (vereinfacht)

Seit dem Paper "Attention is All You Need" (2017) basieren alle modernen LLMs auf Transformern. Die Kernidee: Jedes Wort im Text "schaut" auf alle anderen Wörter gleichzeitig und lernt, welche Zusammenhänge wichtig sind.

Diagramm wird geladen...

ℹ️ Was ist Self-Attention?

Self-Attention ist der Mechanismus, mit dem das Modell versteht, welche Wörter in einem Satz zusammengehören. Wenn du schreibst "Der Hund jagte die Katze, weil er hungrig war" — Attention hilft dem Modell zu verstehen, dass "er" sich auf "Hund" bezieht, nicht auf "Katze".

Tokens: Wie LLMs Text verarbeiten

LLMs lesen keine Wörter — sie lesen Tokens. Ein Token ist ein Textfragment, oft ein Wort oder Wort-Teil. "Datenschutzgrundverordnung" wird zum Beispiel in 3-4 Tokens zerlegt. Englische Texte brauchen weniger Tokens als deutsche, weil die meisten Modelle auf englischen Daten trainiert wurden.

Diagramm wird geladen...

💡 Faustregel für Tokens

1 Token ist ungefähr 3/4 eines englischen Wortes. Für Deutsch rechne mit 1 Token pro halbes Wort. Ein typischer Absatz (100 Wörter) sind ca. 130-150 Tokens. Context Window von 128K = ca. 200 Seiten Text.

LLM vs. Suchmaschine

Ein häufiges Missverständnis: LLMs sind keine Suchmaschinen. Sie "wissen" nichts — sie berechnen, welche Antwort statistisch am wahrscheinlichsten ist.

Eigenschaft	Suchmaschine (Google)	LLM (ChatGPT, Llama)
Datenquelle	Live-Index des Internets	Trainings-Daten (Stichtag)
Aktualität	Echtzeit	Wissen endet am Trainings-Cutoff
Antwortformat	Links zu Webseiten	Fließtext, Code, Tabellen
Genauigkeit	Quelle prüfbar	Kann halluzinieren (erfundene Fakten)
Personalisierung	Basierend auf Suchhistorie	Basierend auf Konversation
Kosten	Kostenlos (mit Werbung)	API-Kosten oder lokale Hardware

Halluzinationen: Wenn LLMs lügen

LLMs können Fakten erfinden, die überzeugend klingen aber falsch sind. Das passiert, weil sie nicht "wissen" — sie berechnen statistische Wahrscheinlichkeiten. Wenn keine gute Antwort in den Trainingsdaten war, generieren sie trotzdem etwas Plausibles.

⚠️ Halluzinations-Risiko

LLMs erfinden Zitate, Gesetze, URLs und Statistiken. Besonders gefährlich bei: juristischen Texten, medizinischen Ratschlägen, historischen Fakten und technischen Spezifikationen. IMMER die Ausgabe verifizieren, bevor du sie weiterverwendest.

💡 Halluzinationen reduzieren

RAG (Retrieval Augmented Generation) ist die beste Methode: Statt das Modell "raten" zu lassen, fütterst du es mit echten Dokumenten als Kontext. Das Modell antwortet dann basierend auf deinen Daten statt auf seinen Trainingsdaten. Mehr dazu im RAG Complete Guide.

Modellgrößen: Von 7B bis 70B

"B" steht für Milliarden Parameter. Mehr Parameter bedeutet mehr "Wissen" und bessere Qualität — aber auch mehr VRAM und langsamere Antworten. Die Kunst liegt im richtigen Trade-off.

Größe	VRAM (Q4)	Speed (RTX 3090)	Qualität	Beispiel-Modelle
7-8B	~5 GB	~112 tok/s	Gut für einfache Tasks	Llama 3.3 8B, Mistral 7B, Qwen 2.5 7B
13-14B	~10 GB	43-57 tok/s	Solide Allrounder	Qwen3 14B, DeepSeek R1 14B
24-32B	~16-20 GB	~20-30 tok/s	Nahe Cloud-Qualität	Mistral Small 3.1 24B, Qwen 2.5 32B
70B	~40 GB	Passt NICHT auf 24 GB GPU	Beste lokale Qualität	Llama 3.3 70B, Qwen 2.5 72B

⚠️ 70B braucht mehr als 24 GB VRAM

Ein 70B Modell in Q4_K_M Quantisierung braucht ca. 40 GB VRAM. Das passt NICHT auf eine einzelne RTX 3090 oder RTX 4090 (jeweils 24 GB). Für 70B brauchst du 48 GB+ (z.B. 2x RTX 3090 oder eine RTX 6000 Ada). Mit 24 GB VRAM ist bei ca. 34B Modellen Schluss.

💡 Hardware-Empfehlung

RTX 4060 (8 GB VRAM): 7B Modelle problemlos. RTX 4070 Ti Super (16 GB): Bis 14B komfortabel. RTX 3090/4090 (24 GB): Bis 32-34B quantisiert. Die RTX 3090 gebraucht (EUR 750-1.123) bleibt der Value King für lokale AI.

Quantisierung: Grosse Modelle auf kleiner Hardware

Quantisierung reduziert die Präzision der Modell-Gewichte von 32-Bit Gleitkommazahlen auf 4 oder 8 Bit. Das halbiert den VRAM-Bedarf bei minimalen Qualitätsverlusten.

Format	Größe vs. Original	Qualität	Empfehlung
FP16 / BF16	50%	100% (verlustfrei)	Wenn VRAM kein Problem
Q5_K_M	~35%	~99%	Höchste Qualität bei Kompression
Q4_K_M	~25%	~95%	Bester Trade-off (Standard)
Q3_K_M	~20%	~85%	Nur wenn VRAM extrem knapp

ℹ️ Info

Bei Ollama sind die meisten Modelle standardmäßig in Q4_K_M quantisiert. Du musst nichts extra konfigurieren — einfach ollama run llama3.3 und los.

Lokal vs. Cloud: Wo soll das LLM laufen?

Die Kernfrage für jedes Unternehmen: Eigene Hardware oder Cloud-API? Beides hat seinen Platz.

Kriterium	Cloud-API	Lokal (Self-hosted)
Qualität	Beste verfügbare Modelle	Für einfache Tasks ~95% gleichwertig, bei Reasoning 20-25% schlechter
Datenschutz	Daten gehen an Dritte (USA)	Daten bleiben bei dir (DSGVO)
Kosten pro Monat	EUR 50-500+ (nutzungsabhängig)	~EUR 49 Strom (AT, 50% Last) + EUR 750-2.000 Hardware einmalig
Hardware nötig	Nein	GPU ab EUR 350, RTX 3090 gebraucht ab EUR 750
Verfügbarkeit	Internet nötig	Läuft offline
Wartung	Keine	Updates, Monitoring (~1h/Monat)

Ehrlicher Benchmark: Cloud vs. Lokal

Die Qualitätslücke zwischen Cloud-Modellen und lokalen Modellen ist real. Hier sind ehrliche Vergleichswerte (Stand März 2026):

Benchmark	GPT-4o (Cloud)	Llama 3.3 70B (Lokal)	Quelle
MMLU (Wissen)	85.9%	86.0%	Vellum
HumanEval (Code)	84%	88.4%	Vellum / Bind AI
IFEval (Anweisungen)	84.6	92.1	Vellum
MATH (Mathematik)	—	77%	Vellum

ℹ️ Benchmarks richtig lesen

Llama 3.3 70B übertrifft GPT-4o in einigen Benchmarks (MMLU, HumanEval, IFEval). Aber: 70B passt NICHT auf eine einzelne 24 GB GPU. Für lokale Nutzung sind 8B-34B Modelle realistisch — und dort ist die Lücke zu Cloud-Modellen größer, besonders bei komplexem Reasoning.

⚠️ Die Qualitätslücke ist REAL

Vor allem bei komplexem Reasoning (logische Schlüsse, mehrstufige Analyse, juristische Argumentation) liegt Cloud deutlich vorne. Lokale Modelle sind dort nicht "fast so gut" — sie sind messbar schlechter. Das zu verschweigen wäre unehrlich.

💡 Wo lokal trotzdem reicht

Für 80% der alltäglichen Tasks (Daten-Extraktion, Klassifikation, einfache Q&A, Zusammenfassungen) sind lokale Modelle ausreichend. Für komplexes Reasoning: Cloud-API als Backup nutzen. Der ehrlichste Ansatz ist Hybrid — lokal wo es reicht, Cloud wo es zählt.

💡 Unsere Empfehlung

Starte lokal mit Ollama + einem 7B oder 14B Modell. Für Aufgaben wo die Qualität kritisch ist (z.B. Verträge, komplexe Analysen), nutze eine Cloud-API als Backup. Das spart Geld und hält deine Daten unter Kontrolle. Mehr dazu: Lokal vs. Cloud: Der TCO-Vergleich

In 5 Minuten loslegen

Du brauchst kein ML-Studium um ein LLM lokal zu betreiben. Mit Ollama geht das in 3 Schritten:

Ollama installieren

Download von ollama.com — gibt es für Windows, Mac und Linux.

Modell starten

ollama run llama3.3

Fragen stellen

Das Modell läuft auf deiner GPU. Keine Cloud, keine API-Keys, keine Kosten. Die REST-API ist unter http://localhost:11434 erreichbar.

Das Wichtigste

✓LLMs sagen das nächste Token vorher — sie 'wissen' nichts, sie berechnen Wahrscheinlichkeiten.
✓Mehr Parameter = bessere Qualität, aber mehr VRAM und langsamer. Q4_K_M Quantisierung ist der beste Trade-off.
✓LLMs halluzinieren. Kritische Ausgaben immer verifizieren, RAG reduziert das Risiko deutlich.
✓Lokale LLMs auf eigener Hardware (Ollama) sind DSGVO-konform. RTX 3090 bei 50% Last: ca. EUR 49/Monat Strom (AT: EUR 0,34/kWh).
✓Für den Einstieg: Ollama installieren, llama3.3 starten, läuft in 5 Minuten.

Quellen

Vellum: Llama 3.3 70B vs GPT-4o — MMLU, HumanEval, IFEval, MATH Benchmark-Zahlen
Bind AI: Llama 3.3 70B vs GPT-4o Coding — HumanEval Vergleich
IntuitionLabs: 24GB GPU Optimization — VRAM-Limit 24 GB, max ~34B quantisiert
LocalAIMaster: Best GPUs for AI — Inference Speed RTX 3090 (tok/s)
CoreLab: LLM GPU Benchmarks — 8B Modelle ~112 tok/s auf RTX 3090
GlobalPetrolPrices: Austria Electricity Prices — Strompreis AT Privat EUR 0,34/kWh (2026)
BestValueGPU: RTX 3090 Preisentwicklung — Gebrauchtpreise EUR 750-1.123
WKO AI-Toolbox — Praktische AI-Tools und Leitfäden der Wirtschaftskammer Österreich
WKO KI-Handbuch Gewerbe & Handwerk — Nützliche KI-Helfer für Gewerbe und Handwerk
Hugging Face Transformers Dokumentation — Offizielle Dokumentation der Transformers-Bibliothek für LLM-Training, Fine-Tuning und Inferenz

Was ist ein Large Language Model (LLM)?