Lokal vs Cloud: TCO Vergleich | AI Engineering Wiki

Cloud AI wirkt günstig — kein Hardware-Kauf, keine Wartung, einfach loslegen. Aber die versteckten Kosten summieren sich. Hier ist unser Vergleich, basierend auf echter Nutzung.

Hinweis: Dies ist unser Vergleich für den Use Case "laufend AI-Agent für Business-Automation". Für einmalige Analysen oder Prototypen kann Cloud günstiger sein.

Die Szenarien

Cloud-Nutzung

Täglich 100 API-Calls an OpenAI/Gemini/Claude für Workflow-Automation, Support-Chatbot und Content-Generierung.

Lokaler Stack

Ollama auf eigener Hardware (RTX 3090), n8n für Automation, self-hosted Monitoring. Alles läuft 24/7.

Lokale AI vs Cloud — Vergleich der Vor- und Nachteile — Lokal vs Cloud: Kosten, Datenschutz und Kontrolle im direkten Vergleich

Lokal vs Cloud TCO Vergleich — Gesamtkosten über 24 Monate — TCO Vergleich: Lokale AI vs Cloud über 24 Monate — wann sich lokal rechnet

Kostenvergleich (pro Monat)

Kostenpunkt	Cloud	Lokal	Differenz
API-Kosten	€150-300	€0	-€150-300
Hardware/Amortisation	€0	€25-50	+€25-50
Strom (geschätzt)	€0	€20-40	+€20-40
Hosting/Server	€0	€10-20	+€10-20
Monitoring/Tools	€20-50	€0*	-€20-50
DSGVO-Compliance	€50-200	€0	-€50-200
Summe/Monat	€220-550	€55-110	-€165-440

*Grafana + Prometheus sind Open Source, kostenlos

Die versteckten Cloud-Kosten

API-Kosten eskalieren — Je mehr Workflows du automatisierst, desto mehr Calls. Oft 2-3x höher als initial geplant.
Drittlandtransfer pruefen — Bei US-Anbietern greift Art. 44 ff. DSGVO. Zusaetzliche Massnahmen (SCCs, TIAs) sind erforderlich. Rechtsberatung empfohlen.
Vendor Lock-in — Deine Prompts, Workflows, Daten sind beim Anbieter. Umsteigen ist teuer und zeitaufwendig.
Rate Limits — Cloud-Anbieter drosseln bei viel Nutzung. Business-Pläne kosten wieder extra.
Datenschutz-Vorfälle — Jeder Datenleck ist dein Problem. Lokale Systeme = weniger Risiko.

Wann Cloud günstiger ist

Use Case	Empfehlung
Prototyp (wenige Calls/Monat)	Cloud — kein Setup nötig
Einmalige Analysen	Cloud — pay-as-you-go
Kein Budget für Hardware	Cloud starten, später umsteigen
Wenige interne Tools	Cloud — Overscale für little use
Laufende Automation (unser Use Case)	Lokal — ab 6 Monaten günstiger

Break-Even Analyse (ehrlich)

Wann lohnt sich der Umstieg auf lokal? Das hängt stark von deiner Nutzung ab.

TCO Faustregel (Consumer Hardware, Österreich):

Hardware (einmalig):
  RTX 3090 gebraucht:     ~EUR 900
  System (CPU, RAM, NVMe): EUR 500-800

Laufende Kosten (50% Last, 24/7):
  Strom:                   ~EUR 49/Monat → ~EUR 588/Jahr

Gesamt Jahr 1:            ~EUR 2.000-2.300
Gesamt ab Jahr 2:         ~EUR 588/Jahr

Break-Even vs. Cloud API:
  Laut DevTk.AI/Prem AI: erst ab 50M-200M Tokens/Monat
  Unter 2M Tokens/Tag: API ist günstiger
  Hidden Cost Faktor: TCO wird 3-5x unterschätzt (AISuperior)
  Engineering-Anteil: 45-55% des TCO (AISuperior)

Cloud API Preise (März 2026, pro 1M Tokens):
  GPT-4o:           $2.50 Input / $10.00 Output
  Claude Sonnet 4.5: $3.00 Input / $15.00 Output
  Gemini 2.5 Pro:   $1.25 Input / $10.00 Output
  GPT-4o-mini:      $0.15 Input / $0.60 Output

ℹ️ Break-Even ist nutzungsabhängig

Der Break-Even für Self-Hosting liegt bei 50-200 Millionen Tokens pro Monat. Unter 2M Tokens/Tag ist die Cloud API günstiger. Der finanzielle Vorteil von lokal wird oft überschätzt — der echte Vorteil liegt bei Datenschutz (DSGVO), Verfügbarkeit (offline) und Unabhängigkeit von Anbietern.

Hardware-Kosten (ehrlich)

GPU	VRAM	Preis (EUR)	Was läuft darauf	Einschränkung
RTX 3060 12GB	12 GB	~350	7B Modelle (Mistral 7B, Llama 3.2 8B)	NUR kleine Modelle, für 14B+ zu wenig VRAM
RTX 4070 Ti Super	16 GB	~800	Bis 14B komfortabel (Qwen 2.5 14B)	32B nur stark quantisiert, 70B unmöglich
RTX 3090 (gebraucht)	24 GB	750-1.123	Bis 34B quantisiert (Q4_K_M)	70B passt NICHT (braucht ~40 GB VRAM)
RTX 4090	24 GB	1.800-2.000	Bis 34B komfortabel	Gleiche 24 GB VRAM-Grenze wie RTX 3090

Inference Speed (RTX 3090, echte Messwerte)

Modell	Parameter	tok/s (RTX 3090)	Quelle
8B Modelle (allgemein)	8B	~112	CoreLab
GLM 7.8B	7.8B	90.1	LocalAIMaster
DeepSeek-R1 14B	14B	56.6	LocalAIMaster
Qwen3 14B	14B	43.2	LocalAIMaster
RTX 3090 Durchschnitt	—	~42	LocalAIMaster

Stromkosten (ehrlich)

"Kostenlos nach Anschaffung" ist falsch. GPUs brauchen Strom, und der kostet in Österreich EUR 0,34/kWh (Privat, inkl. Steuern, Stand 2026). Hier die echten Zahlen bei 24/7 Betrieb:

Szenario (RTX 3090)	Watt	kWh/Monat	EUR/Monat (AT)	EUR/Jahr
GPU Volllast (350W TDP)	350	252	EUR 85,68	EUR 1.028
System gesamt (~450W)	450	324	EUR 110,16	EUR 1.322
GPU Idle (~18W)	18	13	EUR 4,42	EUR 53
Realistisch (50% Last, 24/7)	~200	144	EUR 48,96	EUR 588

⚠️ Stromkosten nicht vergessen

Bei realistischem Betrieb (50% Last, 24/7) einer RTX 3090 zahlst du ca. EUR 49/Monat Strom in Österreich. Das sind ~EUR 588/Jahr. Peak-Verbrauch kann bis 560W gehen (60% über TDP). Strompreis AT Privat: EUR 0,34/kWh (EU-Durchschnitt: EUR 0,258).

Die Qualitätslücke (ehrlich)

Lokale Modelle sind gut — aber nicht so gut wie die besten Cloud-Modelle. Hier der ehrliche Vergleich:

Task	GPT-4o (Cloud)	Llama 3.3 70B (Lokal)
Reasoning / Logik	69%	44%
Klassifikation	73%	70%
Code Generation	Sehr gut	~85-90% der Cloud-Qualität
Einfache Extraktion	Exzellent	~95% gleichwertig

⚠️ Die Qualitätslücke ist REAL

Vor allem bei komplexem Reasoning (logische Schlüsse, mehrstufige Analyse, juristische Argumentation) liegt Cloud deutlich vorne. Wer behauptet lokale Modelle seien "fast gleichwertig" verschweigt diesen Unterschied.

💡 Wo lokal trotzdem reicht

Für 80% der alltäglichen Tasks (Daten-Extraktion, Klassifikation, einfache Q&A, Zusammenfassungen) sind lokale Modelle ausreichend. Für komplexes Reasoning: Cloud-API als Backup.

Unsere Empfehlung

Hybrid-Ansatz (unser Setup)

Lokal: Ollama für regelmäßige Tasks (Extraktion, Klassifikation, einfache Q&A)
Cloud: GPT-4o / Claude für komplexe Reasoning-Tasks (wenige Calls/Monat)
Kosten: ~EUR 49/Monat Strom (AT, 50% Last) + EUR 20-40/Monat Cloud-API
Ergebnis: Guter Kompromiss aus Kosten, Qualität und Datenschutz

Fazit

Lokal ist nach 6-12 Monaten günstiger — BEI regelmäßiger Nutzung. Bei geringer Nutzung ist Cloud finanziell besser. Die Qualität ist für 80% der Tasks ausreichend, für komplexes Reasoning braucht man Cloud-APIs als Ergänzung. Der EHRLICHSTE Ansatz ist Hybrid: lokal wo es reicht, Cloud wo es zählt. Dazu kommen die DSGVO-Vorteile (kein Drittlandtransfer) und die Unabhängigkeit von Cloud-Anbietern.

Quellen

GlobalPetrolPrices: Austria Electricity 2026 — Strompreis AT Privat EUR 0,34/kWh
BestValueGPU: RTX 3090 Preisentwicklung — Gebrauchtpreise EUR 750-1.123
XDA Developers: RTX 3090 Value King 2026 — RTX 3090 als bestes Preis-Leistungs-Verhältnis
DevTk.AI: Self-Hosting vs API Cost 2026 — Break-Even bei 50M-200M Tokens/Monat
Prem AI: Self-Hosted LLM Guide 2026 — Unter 2M Tokens/Tag ist API günstiger
AISuperior: LLM Deployment Cost — Hidden Cost Faktor 3-5x, Engineering 45-55%
OpenAI Pricing — GPT-4o $2.50/$10 pro 1M Tokens
Anthropic Pricing — Claude Sonnet $3/$15 pro 1M Tokens
Google Gemini Pricing — Gemini 2.5 Pro $1.25/$10 pro 1M Tokens
LocalAIMaster: Best GPUs for AI — Inference Speed RTX 3090 (tok/s)
CoreLab: LLM GPU Benchmarks — 8B ~112 tok/s auf RTX 3090
IntuitionLabs: 24GB GPU Optimization — Max ~34B auf 24 GB VRAM
NotebookCheck: RTX 3090 Power — TDP 350W, Peak bis 560W

Lokale AI vs. Cloud: Der TCO-Vergleich