Fast Mode & Opus 4.6
Level 3 | 45 Minuten
Schnellere Antworten mit Fast Mode, Preismodell, Effort Level, Rate Limits – und Opus 4.6 mit 1M Kontext, adaptivem Thinking und Modellauswahl.
Lernziele
- Fast Mode aktivieren, deaktivieren und den Kosten-Tradeoff verstehen
- Fast Mode vs. Effort Level – zwei verschiedene Geschwindigkeits-Hebel
- Opus 4.6 vertieft: 1M Kontext, adaptives Thinking, Benchmarks
- Wann Sonnet vs. Opus – Kosten, Qualität und agentische Aufgaben
- Rate Limits, Fallback-Verhalten und Organisations-Einstellungen kennen
- Kontext-Management als wichtigste Ressource verstehen
Was ist Fast Mode?
Fast Mode ist ein Feature speziell für Claude Opus 4.6, das die Ausgabe-Geschwindigkeit deutlich erhöht – bei höheren Kosten pro Token. Wichtig: Fast Mode ist KEIN anderes Modell. Es nutzt dasselbe Opus 4.6 mit einer anderen API-Konfiguration, die Geschwindigkeit vor Kosteneffizienz priorisiert. Du bekommst identische Qualität und Fähigkeiten, nur schnellere Antworten. Fast Mode ist derzeit in der Research Preview – Preise, Verfügbarkeit und Verhalten können sich ändern.
💡 Kernkonzept Fast Mode = gleiche Intelligenz, niedrigere Latenz, höherer Preis. Es ist kein Qualitäts-Upgrade, sondern ein Geschwindigkeits-Boost für Opus 4.6.
WAS FAST MODE TECHNISCH IST
━━━━━━━━━━━━━━━━━━━━━━━━━━
Standard Opus 4.6:
┌─────────────────────────────────────┐
│ Modell: Opus 4.6 │
│ API-Config: Kostenoptimiert │
│ Latenz: Normal │
│ Preis: Standard │
└─────────────────────────────────────┘
Fast Mode Opus 4.6:
┌─────────────────────────────────────┐
│ Modell: Opus 4.6 (IDENTISCH!) │
│ API-Config: Geschwindigkeitsopti. │
│ Latenz: ~2.5x schneller │
│ Preis: Höher ($30/$150 MTok) │
└─────────────────────────────────────┘
→ Gleiche Qualität, gleiche Fähigkeiten
→ Einziger Unterschied: API-Routing
→ KEIN anderes Modell, KEIN Downgrade
Fast Mode aktivieren und deaktivieren
Es gibt zwei Wege, Fast Mode umzuschalten:
1. Slash-Command (empfohlen): Tippe /fast und drücke Tab – Fast Mode togglet an/aus. Funktioniert in der CLI und in der VS Code Extension.
2. Settings-Datei: Setze "fastMode": true in deiner User-Settings-Datei (z.B. ~/.claude/settings.json).
Fast Mode bleibt über Sessions hinweg erhalten – du musst es nicht jedes Mal neu aktivieren.
Was passiert beim Aktivieren?
- Falls du ein anderes Modell nutzt, wechselt Claude Code automatisch zu Opus 4.6.
- Du siehst die Bestätigung: „Fast mode ON".
- Ein kleines ↯-Symbol erscheint neben dem Prompt, solange Fast Mode aktiv ist.
- /fast erneut eingeben zeigt den aktuellen Status oder deaktiviert es.
Was passiert beim Deaktivieren?
- Du bleibst auf Opus 4.6 – das Modell wechselt NICHT zurück zum vorherigen Modell.
- Um ein anderes Modell zu nutzen: /model sonnet oder /model Menü.
# Fast Mode in der Sitzung togglen
/fast
# Status prüfen (zeigt ON/OFF)
/fast
# Modell separat wechseln (Fast Mode bleibt unabhängig)
/model sonnet
/model opus
# Fast Mode über Settings-Datei dauerhaft setzen
# In ~/.claude/settings.json:
# { "fastMode": true }
Kosten und Preistabelle (offizielle Docs)
Fast Mode hat höhere Token-Preise als Standard-Opus. Offizielle Preistabelle (Stand: Februar 2026, Research Preview): | Modus | Input (pro 1M Token) | Output (pro 1M Token) | |---|---|---| | Fast Mode Opus 4.6 (< 200K Kontext) | $30 | $150 | | Fast Mode Opus 4.6 (> 200K Kontext) | $60 | $225 | Fast Mode ist kompatibel mit dem erweiterten 1M-Token-Kontextfenster. Beachte: Bei mehr als 200K Token Kontext verdoppeln sich die Input-Kosten und die Output-Kosten steigen um 50%.
⚠️ Kostenfalle: Mid-Conversation-Aktivierung Wenn du Fast Mode MITTEN in einer Konversation einschaltest, zahlst du den vollen uncached Fast-Mode-Input-Preis für den gesamten bisherigen Kontext. Das ist deutlich teurer als wenn du Fast Mode von Anfang an aktiviert hättest. Tipp: Fast Mode am besten am Session-Start aktivieren!
Fast Mode wird direkt über Extra Usage abgerechnet – auch wenn du noch Abo-Kontingent übrig hast. Fast-Mode-Tokens zählen nicht gegen dein Plan-Kontingent und werden ab dem ersten Token zum Fast-Mode-Preis berechnet. Kostenbeispiel: Du hast eine Konversation mit 100K Token Kontext aufgebaut (Standard-Opus). Jetzt schaltest du Fast Mode ein. Dein nächster Prompt sendet alle 100K Token als Input zum Fast-Mode-Preis ($30/MTok statt Standard). Das sind $3 extra für den einen Prompt, nur weil du mittendrin gewechselt hast. Hättest du von Anfang an Fast Mode genutzt, wäre der Kontext bereits gecacht und günstiger.
Fast Mode vs. Effort Level – zwei verschiedene Hebel
Viele Einsteiger verwechseln Fast Mode und Effort Level. Beide beeinflussen die Antwort-Geschwindigkeit, aber auf völlig unterschiedliche Art: | Einstellung | Was es tut | Qualitätseffekt | Kosteneffekt | |---|---|---|---| | Fast Mode | API-Routing priorisiert Geschwindigkeit | Keine Qualitätsänderung | Höhere Kosten | | Niedriger Effort | Weniger Extended Thinking | Potenziell niedrigere Qualität bei Komplexem | Niedrigere Kosten | | Beides kombiniert | Schnellste Antworten möglich | Potenziell niedrigere Qualität | Höhere Kosten durch Fast Mode, aber weniger Tokens durch niedrigeren Effort | Du kannst beides kombinieren: Fast Mode + niedriger Effort Level = maximale Geschwindigkeit für einfache Tasks. Effort Level reduziert die Menge an internem „Nachdenken" (Extended Thinking), die Claude verwendet. Bei einfachen Aufgaben (Formatierung, Umbenennung, kleine Edits) ist ein niedriger Effort Level sinnvoll. Bei Architektur-Entscheidungen oder komplexem Debugging brauchst du vollen Effort. Extended Thinking (Adaptive bei Opus 4.6): Bei Opus 4.6 ist das Thinking adaptiv – das Modell entscheidet selbst, wie viel Nachdenken eine Aufgabe braucht, statt ein festes Budget zu haben. Ein niedriger Effort Level überschreibt dieses adaptive Verhalten und zwingt das Modell, weniger zu denken.
💡 Praxis-Empfehlung: Die vier Geschwindigkeits-Stufen Stufe 1 (maximale Qualität): Opus + kein Fast Mode + voller Effort → Architektur, Plan Mode Stufe 2 (Standard): Opus + kein Fast Mode + Standard Effort → Tägliche Entwicklung Stufe 3 (schnelle Iteration): Opus + Fast Mode + Standard Effort → Rapid Prototyping, Debugging Stufe 4 (maximale Geschwindigkeit): Opus + Fast Mode + niedriger Effort → Triviale Aufgaben, Formatting
Voraussetzungen für Fast Mode
- Fast Mode erfordert ALLE folgenden Bedingungen:
- Opus 4.6 Modell: Fast Mode funktioniert ausschließlich mit Opus 4.6 (
claude-opus-4-6/ Aliasopus). - Extra Usage aktiviert: Dein Account muss Extra Usage aktiviert haben – in den Console Billing Settings oder durch einen Team-Admin.
- Nicht auf Drittanbieter-Clouds: Fast Mode ist NICHT verfügbar auf Amazon Bedrock, Google Vertex AI oder Microsoft Azure Foundry. Nur über Anthropic Console API und Claude-Abo-Pläne.
- Teams/Enterprise: Admin muss freigeben: Fast Mode ist standardmäßig deaktiviert für Teams/Enterprise. Ein Admin muss es explizit in den Claude Code Preferences oder Admin Settings aktivieren.
- Wenn dein Admin Fast Mode nicht freigegeben hat, zeigt
/fastdie Meldung: „Fast mode has been disabled by your organization."
CHECKLISTE: FAST MODE AKTIVIEREN
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
□ Claude Code installiert und authentifiziert
□ Abo-Plan: Pro, Max, Team oder Enterprise
□ Extra Usage in Billing Settings aktiviert
→ Console: platform.claude.com/settings/organization/billing
□ Nicht auf Bedrock/Vertex/Azure (nicht unterstützt)
□ Bei Teams/Enterprise: Admin hat Fast Mode freigeschaltet
→ Console: platform.claude.com/claude-code/preferences
→ Claude AI: claude.ai/admin-settings/claude-code
□ In Claude Code: /model opus (falls noch nicht)
□ /fast → "Fast mode ON" + ↯-Symbol erscheint
WENN ES NICHT KLAPPT:
• "Fast mode has been disabled by your organization"
→ Admin muss es freischalten
• Kein ↯-Symbol?
→ Falsches Modell? Nur Opus 4.6 unterstützt Fast Mode
• Fehler bei Extra Usage?
→ Billing Settings prüfen
Rate Limits und automatischer Fallback
Fast Mode hat separate Rate Limits von Standard-Opus. Wenn du das Fast-Mode-Limit erreichst oder dein Extra-Usage-Guthaben aufgebraucht ist, passiert automatisch Folgendes:
1. Fast Mode fällt automatisch auf Standard-Opus 4.6 zurück.
2. Das ↯-Symbol wird grau → Cooldown-Anzeige.
3. Du arbeitest mit Standardgeschwindigkeit und Standardpreisen weiter – kein Abbruch, keine Error-Message, keine Unterbrechung.
4. Wenn der Cooldown abläuft, wird Fast Mode automatisch wieder aktiviert.
Du kannst Fast Mode auch manuell deaktivieren statt auf den Cooldown zu warten: einfach /fast erneut eingeben.
Wichtig: Der Fallback ist nahtlos. Du merkst es nur am grauen ↯-Symbol und der etwas langsameren Antwortzeit. Der Workflow wird nicht unterbrochen. Wenn du in einem kritischen Debugging-Moment bist, musst du dir keine Sorgen machen.
Opus 4.6 im Detail – warum es für Claude Code zählt
Opus 4.6 ist Anthropics leistungsstärkstes Modell, veröffentlicht am 5. Februar 2026. Es ist speziell für agentische und langfristige Aufgaben optimiert. Laut Anthropic plant es sorgfältiger, hält agentische Tasks länger durch, arbeitet zuverlässiger in großen Codebases und hat bessere Code-Review- und Debugging-Fähigkeiten – auch um eigene Fehler zu erkennen. In Claude Code ist Opus 4.6 die erste Wahl wenn es um die schwierigsten Aufgaben geht. Aber es ist auch die teuerste Option. Das Verständnis der drei Kernfeatures hilft dir, es gezielt und kosteneffizient einzusetzen.
Feature 1: Das 1M Token Kontextfenster (Beta)
Das Standard-Kontextfenster war bei älteren Claude-Modellen 200K Token. Seit März 2026 bieten Opus 4.6 und Sonnet 4.6 ein 1M Token Context Window als GA (Generally Available) — ohne Beta-Header, zum Standard-Preis. Was bedeutet 1M Token in der Praxis? - Eine durchschnittliche Code-Datei hat 200-500 Token. - Ein ganzes Monorepo mit 500 Dateien = ca. 150K-250K Token. - Mit 1M Token kannst du also mehrere komplette Projekte oder ein sehr großes Projekt vollständig im Kontext haben. - Lange Konversationen mit vielen File-Reads und Tool-Outputs bleiben länger im Kontext, bevor Compaction nötig wird. Aber Achtung: Mehr Kontext ≠ automatisch bessere Ergebnisse. Die offiziellen Best Practices betonen: Das Kontextfenster ist die wichtigste Ressource, die du managen musst. Bei vollem Kontext leidet die Qualität – auch bei 1M. Und mehr Token im Kontext = höhere Kosten (besonders im Fast Mode mit >200K: $60/$225 MTok). Die empfohlene Strategie: Nutze Skills und Subagents, um den Kontext gezielt zu beladen statt alles auf einmal zu laden. Lies nicht blind alle Dateien ein, sondern lass Claude zuerst suchen und dann gezielt lesen.
Feature 2: Adaptive Reasoning (Extended Thinking)
Frühere Modelle hatten ein festes Thinking-Budget: Entweder Extended Thinking an oder aus. Opus 4.6 führt Adaptive Reasoning ein – das Modell entscheidet dynamisch, wie viel „Nachdenken" eine Aufgabe braucht. Einfache Aufgabe (z.B. „Benenne die Variable x um in userId"): → Wenig internes Reasoning, schnelle Antwort, wenige Thinking-Tokens. Mittlere Aufgabe (z.B. „Implementiere eine Pagination-Komponente"): → Moderates Reasoning, überlegt kurz über API-Design und Edge Cases. Komplexe Aufgabe (z.B. „Analysiere die Architektur und schlage eine Migration von REST zu GraphQL vor"): → Tiefes Reasoning, umfangreiche interne Analyse, viele Thinking-Tokens. Das spart Tokens und Geld bei simplen Aufgaben und liefert die nötige Tiefe bei schwierigen. Du musst das Thinking-Budget nicht mehr manuell steuern – Opus 4.6 macht das adaptiv. In der Praxis: Du merkst den Unterschied daran, dass triviale Antworten schneller kommen und komplexe Antworten sorgfältiger durchdacht sind. Das adaptive Verhalten lässt sich über den Effort Level beeinflussen: ein niedriger Effort Level „deckelt" die Thinking-Zeit auch bei komplexen Aufgaben.
Feature 3: Benchmark-Ergebnisse und was sie bedeuten
Opus 4.6 führt mehrere relevante Benchmarks an: Terminal-Bench 2.0 (Agentisches Coding): Testet, wie gut ein Modell autonome Coding-Tasks in einer Terminal-Umgebung durchführt – genau das, was Claude Code tut. Opus 4.6 hat den höchsten Score aller getesteten Modelle. Das bedeutet: Es ist besonders gut darin, Dateien zu lesen, Code zu schreiben, Tests auszuführen und Fehler zu finden – in einem langen, autonomen Workflow. Humanity's Last Exam (Komplexes Reasoning): Ein multidisziplinärer Reasoning-Test, der verschiedene Wissensdomänen abdeckt. Opus 4.6 hat die anderen Frontier-Modelle übertroffen. Das ist relevant für Aufgaben wie Architektur-Analyse, Code-Review mit tiefem Verständnis, oder wenn Claude Code Entscheidungen treffen muss, die breites Kontextwissen erfordern. Warum das für dich zählt: Wenn du Claude Code für einfache Aufgaben nutzt (Formatting, Umbenennung, kleine Edits), wirst du den Unterschied zwischen Sonnet und Opus kaum merken. Sobald die Aufgaben komplex werden – Multi-File-Refactorings, Architektur-Entscheidungen, schwieriges Debugging – hat Opus einen messbaren Qualitätsvorsprung.
Wann Sonnet – wann Opus?
Die Modellwahl ist eine der wichtigsten Entscheidungen in deinem Claude-Code-Workflow. Hier eine detaillierte Entscheidungshilfe:
MODELL-ENTSCHEIDUNGSBAUM
━━━━━━━━━━━━━━━━━━━━━━
Ist die Aufgabe klar definiert und betrifft wenige Dateien?
→ JA: Sonnet (günstiger, schneller)
→ NEIN: ↓
Erfordert die Aufgabe tiefes Architektur-Verständnis?
→ JA: Opus
→ NEIN: ↓
Betrifft die Aufgabe mehr als 5-10 Dateien?
→ JA: Opus (besseres Multi-File-Reasoning)
→ NEIN: ↓
Nutzt du Agent Teams oder mehrere Subagents?
→ JA: Opus für den Lead, Sonnet für einfache Teammates
→ NEIN: ↓
Wann brauchst du das volle 1M Context Window?
→ JA: Opus (1M Kontext-Fenster)
→ NEIN: Sonnet
FAUSTREGELN:
• 80% der täglichen Arbeit: Sonnet reicht
• 20% der schwierigen Aufgaben: Opus lohnt sich
• Spar-Tipp: Starte mit Sonnet, wechsle zu Opus wenn nötig
• Kosten-Tipp: Opus-Subagents nur für Kern-Tasks
Sonnet wählen für: - Alltags-Entwicklung mit schnellen Iterationen und klaren Tasks - Gut dokumentierte Codebases mit klaren Konventionen - Einfache Bug-Fixes, Feature-Implementierungen - Kostenbewusstes Arbeiten - Die meisten Subagent-Aufgaben (Code-Review einer Datei, Tests schreiben) Opus wählen für: - Unklare Architektur, komplexe Planungsfragen - Schwere Refactorings über viele Dateien - Code-Reviews mit Sicherheits-/Performance-Fokus - Multi-Agent-Setups als Lead (Agent Teams) - Wenn du das 1M-Kontextfenster brauchst - Schwieriges Debugging, wo systematisches Reasoning zählt - Plan Mode für komplexe Aufgaben
# Mit Opus starten (Alias)
claude --model opus
# In der Sitzung: Modell wechseln
/model opus
/model sonnet
# Fast Mode togglen (nur Opus 4.6)
/fast
# Kombination: Opus + Fast Mode für schnelle Iteration
# 1. /model opus 2. /fast
# Modell in CLAUDE.md als Empfehlung für das Projekt dokumentieren:
# (in CLAUDE.md)
# ## Modell-Empfehlung
# - Tägliche Arbeit: Sonnet
# - Architektur/Refactoring: Opus
# - Schnelle Iteration: Opus + /fast
Praxisszenarien: Fast Mode richtig einsetzen
Szenario 1 – Rapid Prototyping: Du baust schnell einen Prototyp und brauchst viele kleine Iterationen. Du sendest 20-30 Prompts in einer Stunde. → Fast Mode AN, Effort Standard. Schnelleres Feedback bei jedem Prompt. Die Zeitersparnis summiert sich. Szenario 2 – Live Debugging: Ein Bug tritt auf und du debuggst interaktiv mit Claude. Du liest Fehler, Claude schlägt Fixes vor, du testest – schnelle Zyklen. → Fast Mode AN. Die niedrigere Latenz macht den Dialog flüssiger. Szenario 3 – Lange autonome Aufgabe: Du gibst Claude ein großes Refactoring: „Migriere alle API-Routen von Express zu Fastify." Claude arbeitet 10 Minuten autonom. → Fast Mode AUS. Du wartest sowieso, und die Kosten wären unnötig höher. Szenario 4 – CI/CD Pipeline: Claude läuft headless in einer GitHub Action und reviewed einen PR. → Fast Mode AUS. Latenz ist irrelevant bei automatisierten Pipelines. Szenario 5 – Architektur-Planung im Plan Mode: Du brauchst maximale Reasoning-Tiefe für eine wichtige Architektur-Entscheidung. → Fast Mode AUS, voller Effort Level. Qualität vor Geschwindigkeit. Szenario 6 – Agent Teams mit Mixed Models: Lead auf Opus, Teammates auf Sonnet für einfache Tasks, einer auf Opus für den kritischen Pfad. → Lead mit Fast Mode für flüssige Koordination, Teammates ohne Fast Mode zur Kostenkontrolle.
Kontext-Management – die wichtigste Ressource
Die offiziellen Best Practices und „How Claude Code works" betonen: Das Kontextfenster ist die wichtigste Ressource, die du managen musst. Das gilt unabhängig vom Modell und unabhängig von Fast Mode.
Wie der Kontext sich füllt:
Jede Nachricht, jedes gelesene File, jeder Befehlsoutput und jede Tool-Antwort verbraucht Tokens im Kontextfenster. Eine einzige Debugging-Session oder Codebase-Exploration kann Zehntausende Tokens erzeugen. Bei vollem Kontext beginnt Claude, frühere Instruktionen zu „vergessen" oder mehr Fehler zu machen.
Strategien zum Kontext-Management:
- Nutze /compact oder die Summarize-Option in /rewind, um den Kontext gezielt zu komprimieren.
- Delegiere Recherche an Subagents – sie haben eigene Kontextfenster und belasten deinen nicht.
- Lies nicht blind alle Dateien ein: Lass Claude suchen, dann gezielt lesen.
- Nutze Skills für Wissen, das nicht immer geladen sein muss.
- Starte neue Sessions für neue Aufgabenbereiche statt alles in eine Session zu packen.
- Beobachte die Kontextauslastung in der Statuszeile (konfigurierbar über Status Line Settings).
🎓 Zusammenfassung ✅ Fast Mode = gleiche Qualität, weniger Latenz, mehr Kosten ✅ Immer am Session-Start aktivieren (Mid-Conversation ist teurer!) ✅ Nur für Opus 4.6 verfügbar – wird automatisch gewechselt ✅ Automatischer Fallback bei Rate Limits (grauer ↯-Indikator) ✅ Fast Mode + Effort Level sind zwei unabhängige Geschwindigkeits-Hebel ✅ Vier Geschwindigkeitsstufen: Qualität → Standard → Schnell → Maximal ✅ Extra Usage muss aktiviert sein; Teams/Enterprise: Admin-Freigabe nötig ✅ Opus 4.6 = 1M Kontext (Beta), adaptives Thinking, beste Benchmarks ✅ 80/20-Regel: Sonnet für Alltag, Opus für Schwieriges ✅ Kontext-Management ist die wichtigste Ressource – unabhängig vom Modell