Grundlagen
Was ist ein Large Language Model (LLM)?
Wie Sprachmodelle funktionieren, warum sie manchmal halluzinieren und was du brauchst um sie lokal zu betreiben.

Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde und Sprache versteht, generiert und übersetzt. LLMs sagen Wort für Wort vorher, welches Token als nächstes kommen sollte. Sie können lokal auf eigener Hardware laufen — ohne Cloud, ohne Abhängigkeit.
Was genau ist ein LLM?
Ein Large Language Model ist eine Form von künstlicher Intelligenz, die auf der Transformer-Architektur basiert. Das Modell wurde mit Milliarden von Texten aus dem Internet trainiert — Bücher, Wikipedia, Foren, wissenschaftliche Arbeiten — und hat dabei statistische Muster in Sprache gelernt.
Der Kern: Ein LLM berechnet für jedes mögliche nächste Wort eine Wahrscheinlichkeit und wählt dann das wahrscheinlichste. Das klingt simpel, aber bei 70 Milliarden Parametern und 128.000 Tokens Kontext entstehen erstaunlich gute Ergebnisse.
Die Transformer-Architektur (vereinfacht)
Seit dem Paper "Attention is All You Need" (2017) basieren alle modernen LLMs auf Transformern. Die Kernidee: Jedes Wort im Text "schaut" auf alle anderen Wörter gleichzeitig und lernt, welche Zusammenhänge wichtig sind.
Self-Attention ist der Mechanismus, mit dem das Modell versteht, welche Wörter in einem Satz zusammengehören. Wenn du schreibst "Der Hund jagte die Katze, weil er hungrig war" — Attention hilft dem Modell zu verstehen, dass "er" sich auf "Hund" bezieht, nicht auf "Katze".
Tokens: Wie LLMs Text verarbeiten
LLMs lesen keine Wörter — sie lesen Tokens. Ein Token ist ein Textfragment, oft ein Wort oder Wort-Teil. "Datenschutzgrundverordnung" wird zum Beispiel in 3-4 Tokens zerlegt. Englische Texte brauchen weniger Tokens als deutsche, weil die meisten Modelle auf englischen Daten trainiert wurden.
1 Token ist ungefähr 3/4 eines englischen Wortes. Für Deutsch rechne mit 1 Token pro halbes Wort. Ein typischer Absatz (100 Wörter) sind ca. 130-150 Tokens. Context Window von 128K = ca. 200 Seiten Text.
LLM vs. Suchmaschine
Ein häufiges Missverständnis: LLMs sind keine Suchmaschinen. Sie "wissen" nichts — sie berechnen, welche Antwort statistisch am wahrscheinlichsten ist.
| Eigenschaft | Suchmaschine (Google) | LLM (ChatGPT, Llama) |
|---|---|---|
| Datenquelle | Live-Index des Internets | Trainings-Daten (Stichtag) |
| Aktualität | Echtzeit | Wissen endet am Trainings-Cutoff |
| Antwortformat | Links zu Webseiten | Fließtext, Code, Tabellen |
| Genauigkeit | Quelle prüfbar | Kann halluzinieren (erfundene Fakten) |
| Personalisierung | Basierend auf Suchhistorie | Basierend auf Konversation |
| Kosten | Kostenlos (mit Werbung) | API-Kosten oder lokale Hardware |
Halluzinationen: Wenn LLMs lügen
LLMs können Fakten erfinden, die überzeugend klingen aber falsch sind. Das passiert, weil sie nicht "wissen" — sie berechnen statistische Wahrscheinlichkeiten. Wenn keine gute Antwort in den Trainingsdaten war, generieren sie trotzdem etwas Plausibles.
LLMs erfinden Zitate, Gesetze, URLs und Statistiken. Besonders gefährlich bei: juristischen Texten, medizinischen Ratschlägen, historischen Fakten und technischen Spezifikationen. IMMER die Ausgabe verifizieren, bevor du sie weiterverwendest.
RAG (Retrieval Augmented Generation) ist die beste Methode: Statt das Modell "raten" zu lassen, fütterst du es mit echten Dokumenten als Kontext. Das Modell antwortet dann basierend auf deinen Daten statt auf seinen Trainingsdaten. Mehr dazu im RAG Complete Guide.
Modellgrößen: Von 7B bis 70B
"B" steht für Milliarden Parameter. Mehr Parameter bedeutet mehr "Wissen" und bessere Qualität — aber auch mehr VRAM und langsamere Antworten. Die Kunst liegt im richtigen Trade-off.
| Größe | VRAM (Q4) | Speed (RTX 3090) | Qualität | Beispiel-Modelle |
|---|---|---|---|---|
| 7-8B | ~5 GB | ~112 tok/s | Gut für einfache Tasks | Llama 3.3 8B, Mistral 7B, Qwen 2.5 7B |
| 13-14B | ~10 GB | 43-57 tok/s | Solide Allrounder | Qwen3 14B, DeepSeek R1 14B |
| 24-32B | ~16-20 GB | ~20-30 tok/s | Nahe Cloud-Qualität | Mistral Small 3.1 24B, Qwen 2.5 32B |
| 70B | ~40 GB | Passt NICHT auf 24 GB GPU | Beste lokale Qualität | Llama 3.3 70B, Qwen 2.5 72B |
Ein 70B Modell in Q4_K_M Quantisierung braucht ca. 40 GB VRAM. Das passt NICHT auf eine einzelne RTX 3090 oder RTX 4090 (jeweils 24 GB). Für 70B brauchst du 48 GB+ (z.B. 2x RTX 3090 oder eine RTX 6000 Ada). Mit 24 GB VRAM ist bei ca. 34B Modellen Schluss.
RTX 4060 (8 GB VRAM): 7B Modelle problemlos. RTX 4070 Ti Super (16 GB): Bis 14B komfortabel. RTX 3090/4090 (24 GB): Bis 32-34B quantisiert. Die RTX 3090 gebraucht (EUR 750-1.123) bleibt der Value King für lokale AI.
Quantisierung: Grosse Modelle auf kleiner Hardware
Quantisierung reduziert die Präzision der Modell-Gewichte von 32-Bit Gleitkommazahlen auf 4 oder 8 Bit. Das halbiert den VRAM-Bedarf bei minimalen Qualitätsverlusten.
| Format | Größe vs. Original | Qualität | Empfehlung |
|---|---|---|---|
| FP16 / BF16 | 50% | 100% (verlustfrei) | Wenn VRAM kein Problem |
| Q5_K_M | ~35% | ~99% | Höchste Qualität bei Kompression |
| Q4_K_M | ~25% | ~95% | Bester Trade-off (Standard) |
| Q3_K_M | ~20% | ~85% | Nur wenn VRAM extrem knapp |
Bei Ollama sind die meisten Modelle standardmäßig in Q4_K_M quantisiert. Du musst nichts extra konfigurieren — einfach ollama run llama3.3 und los.
Lokal vs. Cloud: Wo soll das LLM laufen?
Die Kernfrage für jedes Unternehmen: Eigene Hardware oder Cloud-API? Beides hat seinen Platz.
| Kriterium | Cloud-API | Lokal (Self-hosted) |
|---|---|---|
| Qualität | Beste verfügbare Modelle | Für einfache Tasks ~95% gleichwertig, bei Reasoning 20-25% schlechter |
| Datenschutz | Daten gehen an Dritte (USA) | Daten bleiben bei dir (DSGVO) |
| Kosten pro Monat | EUR 50-500+ (nutzungsabhängig) | ~EUR 49 Strom (AT, 50% Last) + EUR 750-2.000 Hardware einmalig |
| Hardware nötig | Nein | GPU ab EUR 350, RTX 3090 gebraucht ab EUR 750 |
| Verfügbarkeit | Internet nötig | Läuft offline |
| Wartung | Keine | Updates, Monitoring (~1h/Monat) |
Ehrlicher Benchmark: Cloud vs. Lokal
Die Qualitätslücke zwischen Cloud-Modellen und lokalen Modellen ist real. Hier sind ehrliche Vergleichswerte (Stand März 2026):
| Benchmark | GPT-4o (Cloud) | Llama 3.3 70B (Lokal) | Quelle |
|---|---|---|---|
| MMLU (Wissen) | 85.9% | 86.0% | Vellum |
| HumanEval (Code) | 84% | 88.4% | Vellum / Bind AI |
| IFEval (Anweisungen) | 84.6 | 92.1 | Vellum |
| MATH (Mathematik) | — | 77% | Vellum |
Llama 3.3 70B übertrifft GPT-4o in einigen Benchmarks (MMLU, HumanEval, IFEval). Aber: 70B passt NICHT auf eine einzelne 24 GB GPU. Für lokale Nutzung sind 8B-34B Modelle realistisch — und dort ist die Lücke zu Cloud-Modellen größer, besonders bei komplexem Reasoning.
Vor allem bei komplexem Reasoning (logische Schlüsse, mehrstufige Analyse, juristische Argumentation) liegt Cloud deutlich vorne. Lokale Modelle sind dort nicht "fast so gut" — sie sind messbar schlechter. Das zu verschweigen wäre unehrlich.
Für 80% der alltäglichen Tasks (Daten-Extraktion, Klassifikation, einfache Q&A, Zusammenfassungen) sind lokale Modelle ausreichend. Für komplexes Reasoning: Cloud-API als Backup nutzen. Der ehrlichste Ansatz ist Hybrid — lokal wo es reicht, Cloud wo es zählt.
Starte lokal mit Ollama + einem 7B oder 14B Modell. Für Aufgaben wo die Qualität kritisch ist (z.B. Verträge, komplexe Analysen), nutze eine Cloud-API als Backup. Das spart Geld und hält deine Daten unter Kontrolle. Mehr dazu: Lokal vs. Cloud: Der TCO-Vergleich
In 5 Minuten loslegen
Du brauchst kein ML-Studium um ein LLM lokal zu betreiben. Mit Ollama geht das in 3 Schritten:
Ollama installieren
Download von ollama.com — gibt es für Windows, Mac und Linux.
Modell starten
ollama run llama3.3Fragen stellen
Das Modell läuft auf deiner GPU. Keine Cloud, keine API-Keys, keine Kosten. Die REST-API ist unter http://localhost:11434 erreichbar.
Das Wichtigste
- ✓LLMs sagen das nächste Token vorher — sie 'wissen' nichts, sie berechnen Wahrscheinlichkeiten.
- ✓Mehr Parameter = bessere Qualität, aber mehr VRAM und langsamer. Q4_K_M Quantisierung ist der beste Trade-off.
- ✓LLMs halluzinieren. Kritische Ausgaben immer verifizieren, RAG reduziert das Risiko deutlich.
- ✓Lokale LLMs auf eigener Hardware (Ollama) sind DSGVO-konform. RTX 3090 bei 50% Last: ca. EUR 49/Monat Strom (AT: EUR 0,34/kWh).
- ✓Für den Einstieg: Ollama installieren, llama3.3 starten, läuft in 5 Minuten.
Quellen
- Vellum: Llama 3.3 70B vs GPT-4o — MMLU, HumanEval, IFEval, MATH Benchmark-Zahlen
- Bind AI: Llama 3.3 70B vs GPT-4o Coding — HumanEval Vergleich
- IntuitionLabs: 24GB GPU Optimization — VRAM-Limit 24 GB, max ~34B quantisiert
- LocalAIMaster: Best GPUs for AI — Inference Speed RTX 3090 (tok/s)
- CoreLab: LLM GPU Benchmarks — 8B Modelle ~112 tok/s auf RTX 3090
- GlobalPetrolPrices: Austria Electricity Prices — Strompreis AT Privat EUR 0,34/kWh (2026)
- BestValueGPU: RTX 3090 Preisentwicklung — Gebrauchtpreise EUR 750-1.123
- WKO AI-Toolbox — Praktische AI-Tools und Leitfäden der Wirtschaftskammer Österreich
- WKO KI-Handbuch Gewerbe & Handwerk — Nützliche KI-Helfer für Gewerbe und Handwerk
- Hugging Face Transformers Dokumentation — Offizielle Dokumentation der Transformers-Bibliothek für LLM-Training, Fine-Tuning und Inferenz
War dieser Artikel hilfreich?
Nächster Schritt: vom Wissen in die Umsetzung
Wenn du mehr willst als Theorie: Setups, Workflows und Vorlagen aus dem echten Betrieb für Teams, die lokale und dokumentierte AI-Systeme wollen.
- Lokal und self-hosted gedacht
- Dokumentiert und auditierbar
- Aus eigener Runtime entwickelt
- Made in Austria