Zum Inhalt springen

LLM Routing Strategie

Komplexe Aufgaben, Architektur, Greenfield → Claude Code (Tab)
Lokales, interaktives Arbeiten in ZED → ZED First-Party Agent
Privacy-kritische Analyse, Offline → Ollama lokal

Claude Code Tab — Flat Rate, 200K Kontext

Einsatz:

  • Architektur-Entscheidungen
  • Komplexes Debugging, Greenfield-Entwicklung
  • Multi-File Refactoring, Testsuiten schreiben

Modell: Claude Sonnet 4.6 / Gemini 3.1 Pro


AufgabeModell
Repo oder große Codebasis einlesen & erklärenGrok 4.1 Fast (Reasoning)
Bestehenden Code debuggen oder Regex anpassenGrok 4.1 Fast (Reasoning)
Tests ausführen und Ergebnis interpretierenGrok 4.1 Fast (Reasoning)
Fix auf vorhandenem Code, Commit-Message, DevOps-TippGrok 4.1 Fast (Reasoning)
Neue Test-Suite schreibenGemini 3 Flash
Komplexen Regex neu entwickeln (ohne Vorlage)Gemini 3 Flash
Größerer Refactor ohne Vorlage aus Claude CodeGemini 3 Flash
Höchste Coding-Qualität, Kontext <200KClaude Sonnet 4.6 Thinking

Faustregel: Überwiegt Lesen/Verstehen → Grok 4.1 Fast. Überwiegt Schreiben → Gemini 3 Flash.


Task eingehend
├── Enthält Credentials / interne Daten?
│ └── Ja → Ollama lokal (Tier C)
├── Architektur, Greenfield, Multi-File-Refactoring?
│ └── Ja → Claude Code Tab (Tier A, Max Flat Rate)
├── ZED-Standard-Task?
│ ├── Überwiegt Lesen/Verstehen?
│ │ └── Ja → Grok 4.1 Fast (Reasoning) — 2M Kontext, $0.22/$0.55
│ └── Überwiegt Schreiben?
│ └── Ja → Gemini 3 Flash — 75.8% SWE-bench, 1M Kontext
└── Batch-Scan / gesamte Codebase analysieren?
└── Gemini CLI (kostenlos, 1M Token Context Window)

ModellInput $/1MOutput $/1MKontextSWE-benchStärke
Grok 4.1 Fast (Reasoning)$0.22$0.552M~51–75%*Lesen, Tool-Use, Agentic
Gemini 3 Flash$0.55$3.301M75.8%Code schreiben, Tests
Gemini 3.1 Pro$2.20$13.201M80.6%Höchste Google-Qualität
Claude Sonnet 4.6$3.30$16.50200K79.6%Höchste Qualität gesamt
Claude Code TabFlat RateFlat Rate200K79.6%Komplexe Aufgaben
Ollama lokal$0$0ModellabhängigPrivacy, offline

*Grok 4.1 Fast SWE-bench: xAI-Self-Report ~72–75% mit eigenem Scaffold; Vals AI unabhängig Feb 2026: ~51%. Scaffold macht 20–30 PP Unterschied. Details: Benchmarks


ZED schreibt in unserem Setup keinen komplexen Greenfield-Code — das ist Claude Code. ZED liest viel, schreibt wenig und zielgerichtet (Fix-Snippet, Befehl, Commit-Message). Für dieses Profil gewinnt Grok 4.1 Fast:

Grok 4.1 Fast Gemini 3 Flash
─────────────────────────────────────────────────────────────
Input-Preis (ZED) $0.22/1M $0.55/1M
Output-Preis (ZED) $0.55/1M $3.30/1M ← 6× teurer
Kontext-Fenster 2.000.000 Tokens 1.000.000 Tokens
SWE-bench Verified ~51% (unabh.) 75.8%
LiveCodeBench (Thinking) 82.2% 90.8%
Stärke Lesen, Agentic Code schreiben
  • 2M Kontext: ganzes Repo einlesen, langer Gesprächsverlauf — kein anderes Modell in dieser Preisklasse
  • 6× günstigerer Output: ZED-Antworten sind meist kurz (Snippet, Befehl, Tipp) — teurer Output von Gemini 3 Flash fällt kaum positiv ins Gewicht
  • Halluzinierungen halbiert gegenüber Grok 4 Fast (Vorgänger)

Wann Gemini 3 Flash trotzdem besser ist: Wenn ZED hauptsächlich schreibt — neue Test-Suiten, komplexe Regex von Grund auf, Refactor ohne Vorlage. Dort sind 8.6 PP Vorsprung auf LiveCodeBench (90.8% vs. 82.2%) messbar relevant.


SetupMonatlichModell-OptionenPrivacy
Nur Cloud (proprietär)~$1501 ProviderNein
CC 2.0 Hybrid~$80UnbegrenztJa
CC 2.0 Full Local~$30300+ via OllamaJa

Claude Max Abo (~€90+/M) deckt Claude Code Tab + Claude Code Web + Claude Pro ab — Flat Rate, kein Token-Pricing für den Tab.


Das Routing ist nicht dogmatisch. Wenn ein Modell heute besser für einen Task ist — nutzen wir es. Wenn es morgen ein besseres gibt — wechseln wir.