Claude Code ist ein autonomer KI-gesteuerter Coding-Agent von Anthropic, der direkt im Terminal läuft und durch natürliche Sprache gesteuert wird. Im Gegensatz zu Autocomplete-Tools wie GitHub Copilot arbeitet Claude Code proaktiv und eigenständig: Es versteht ganze Projekte, liest und schreibt Dateien, erstellt Tests, führt Shell-Befehle und Git-Operationen aus und kommuniziert über das Model Context Protocol (MCP) mit externen Services wie Datenbanken, APIs und Issue-Trackern. Entwickler beschreiben eine Aufgabe in natürlicher Sprache, und Claude Code plant die Umsetzung, analysiert die Codebasis, schreibt den Code, führt Tests aus und erstellt Git-Commits – alles automatisch. Die Installation erfolgt über npm mit dem Befehl 'npm install -g @anthropic-ai/claude-code' und erfordert Node.js 18 oder höher. Claude Code unterstützt alle gängigen Programmiersprachen und läuft auf macOS, Linux und Windows (WSL2).

Wie unterscheidet sich Claude Code von GitHub Copilot?

Claude Code ist ein autonomer Agent, der ganze Aufgaben eigenständig erledigt – von der Dateianalyse über das Code-Schreiben bis zum Git-Commit. GitHub Copilot hingegen ist ein Autocomplete-Tool, das Inline-Code-Vorschläge innerhalb des Editors macht. Der entscheidende Unterschied liegt im Arbeitsumfang: Claude Code hat Zugriff auf das gesamte Projekt, kann Shell-Befehle ausführen, Tests starten, Git-Repositories verwalten und über MCP-Server mit externen Tools wie Datenbanken, GitHub, Jira und Slack kommunizieren. Copilot arbeitet primär innerhalb einer einzelnen Datei im Editor. Claude Code kann mehrstufige Aufgaben planen und ausführen, beispielsweise eine komplette Feature-Implementierung mit Tests, Dokumentation und Pull Request. Copilot schlägt einzelne Code-Zeilen oder Funktionen vor. Für einfache Code-Vervollständigung ist Copilot schneller, für komplexe Entwicklungsaufgaben bietet Claude Code deutlich mehr Autonomie und Projektverständnis.

Welche Abo-Modelle gibt es?

Der Claude Code Masterkurs bietet drei Abo-Modelle für jeden Bedarf: Das Monats-Abo kostet 24 EUR pro Monat und ist jederzeit flexibel kündbar – ideal zum Ausprobieren. Das Jahres-Abo kostet 229 EUR pro Jahr, was einer Ersparnis von 20 Prozent gegenüber der monatlichen Zahlung entspricht. Das Lifetime-Abo bietet für einmalig 499 EUR lebenslangen Zugriff auf alle Inhalte, einschließlich zukünftiger Updates und neuer Lektionen. Alle drei Modelle beinhalten den vollständigen Zugang zu allen 70 Lektionen von Grundlagen bis Experte, 43 Tools & Extensions Lektionen zu CLI-Werkzeugen und MCP-Servern, interaktive Quizzes zur Wissensüberprüfung, den Live-Playground zum Experimentieren, praktische Challenges und Community-Features wie Forum und Leaderboard. Der Kurs bietet außerdem eine kostenlose Vorschau der ersten Lektionen, sodass Interessierte den Kurs vor dem Kauf testen können.

Wie installiert man Claude Code?

Die Installation von Claude Code erfolgt in drei einfachen Schritten und dauert weniger als fünf Minuten. Zunächst muss Node.js in Version 18 oder höher installiert sein – dies ist die einzige Voraussetzung. Anschließend wird Claude Code global über npm installiert mit dem Befehl 'npm install -g @anthropic-ai/claude-code'. Nach der Installation navigiert man in ein beliebiges Projektverzeichnis und startet Claude Code mit dem Befehl 'claude'. Beim ersten Start wird man zur Authentifizierung aufgefordert: Entweder gibt man einen Anthropic API-Key ein oder nutzt die bequemere OAuth-Authentifizierung über die Anthropic Console im Browser. Claude Code läuft auf macOS, Linux und Windows, wobei für Windows die Nutzung von WSL2 (Windows Subsystem for Linux) empfohlen wird. Optional kann man eine CLAUDE.md Datei im Projektstamm erstellen, die Claude Code automatisch als Kontext für das jeweilige Projekt nutzt.

Was ist das Model Context Protocol (MCP)?

MCP (Model Context Protocol) ist ein offenes Protokoll von Anthropic, das Claude Code ermöglicht, sicher mit externen Tools und Services zu kommunizieren. Es funktioniert nach einem Client-Server-Modell: Claude Code ist der MCP-Client, und jeder externe Service wird über einen MCP-Server angebunden. Über MCP-Server kann Claude Code auf Datenbanken wie PostgreSQL und SQLite zugreifen, SQL-Abfragen ausführen und Schemas inspizieren. Es kann GitHub-Issues und Pull Requests verwalten, Jira-Tickets erstellen, Slack-Nachrichten senden und Brave Search für Web-Recherchen nutzen. Die Konfiguration erfolgt über eine JSON-Datei im Projekt oder global in den Claude Code Settings. Jeder MCP-Server definiert seine verfügbaren Tools, und Claude Code entscheidet eigenständig, wann welches Tool aufgerufen wird. Das Protokoll ist open-source und erweiterbar – Entwickler können eigene MCP-Server für beliebige APIs und Services schreiben und so die Fähigkeiten von Claude Code gezielt erweitern.

Was kostet Claude Code?

Claude Code selbst ist kostenlos als npm-Paket verfügbar. Die Nutzung erfordert jedoch einen Anthropic API-Key, und die Kosten richten sich nach dem tatsächlichen Tokenverbrauch. Claude Sonnet 4 kostet circa 3 US-Dollar pro Million Input-Tokens und 15 US-Dollar pro Million Output-Tokens – das ist das empfohlene Modell für die meisten Aufgaben. Claude Opus 4, das leistungsstärkere Modell für komplexe Aufgaben, kostet circa 15 US-Dollar pro Million Input-Tokens und 75 US-Dollar pro Million Output-Tokens. Ein typischer Entwicklungstag kostet je nach Nutzungsintensität zwischen 1 und 20 US-Dollar. Für Entwickler, die keine verbrauchsabhängige Abrechnung möchten, bietet Anthropic den Max Plan als monatliche Pauschale an. Damit erhält man ein festes Kontingent an Claude Code Nutzung pro Monat. Die Kosten lassen sich außerdem durch gezielte Nutzung der CLAUDE.md Datei und effizientes Prompt Engineering deutlich reduzieren.

Welche Programmiersprachen unterstützt Claude Code?

Claude Code ist vollständig sprachunabhängig und unterstützt alle gängigen Programmiersprachen, darunter Python, JavaScript, TypeScript, Rust, Go, Java, C++, C#, Ruby, PHP, Swift und Kotlin. Da Claude Code im Terminal arbeitet und nicht an eine bestimmte IDE gebunden ist, kann es mit jedem Projekt und jeder Sprache verwendet werden. Claude Code versteht nicht nur die Syntax, sondern auch die idiomatischen Patterns jeder Sprache – es schreibt pythonischen Python-Code, idiomatisches Rust mit korrektem Ownership, und typsicheres TypeScript. Besonders stark ist Claude Code bei Projekten mit mehreren Sprachen, etwa einem TypeScript-Frontend mit Python-Backend oder einem Go-Microservice mit SQL-Datenbank. Das Modell erkennt automatisch den verwendeten Tech Stack anhand der Projektdateien (package.json, Cargo.toml, pyproject.toml) und passt seine Code-Generierung entsprechend an. Auch Framework-spezifische Patterns wie React, Django, Rails oder Spring Boot werden korrekt angewendet.

Was ist eine CLAUDE.md Datei?

Die CLAUDE.md ist eine Markdown-Datei im Projektstamm, die Claude Code strukturierten Kontext über das jeweilige Projekt gibt. Sie funktioniert wie ein Briefing für den KI-Agenten und wird automatisch bei jedem Start von Claude Code eingelesen. Typische Inhalte sind eine Projektbeschreibung, die Architektur des Systems, verwendete Technologien und Frameworks, Coding-Konventionen wie Naming Standards und Formatierung, Build- und Test-Befehle sowie spezielle Anweisungen für den Umgang mit dem Code. Je detaillierter die CLAUDE.md, desto besser arbeitet Claude Code mit dem Projekt. Es gibt drei Ebenen von CLAUDE.md Dateien: die projektspezifische im Repo-Root, eine persönliche unter ~/.claude/CLAUDE.md für übergreifende Präferenzen, und optional Unterverzeichnis-spezifische CLAUDE.md Dateien für Module mit eigenen Konventionen. Best Practice ist, die CLAUDE.md mit dem Team zu teilen und im Git-Repository zu versionieren, damit alle Entwickler die gleiche KI-Erfahrung haben.

Fast Mode & Opus 4.6

Level 3 | 45 Minuten

Schnellere Antworten mit Fast Mode, Preismodell, Effort Level, Rate Limits – und Opus 4.6 mit 1M Kontext, adaptivem Thinking und Modellauswahl.

Lernziele

Fast Mode aktivieren, deaktivieren und den Kosten-Tradeoff verstehen
Fast Mode vs. Effort Level – zwei verschiedene Geschwindigkeits-Hebel
Opus 4.6 vertieft: 1M Kontext, adaptives Thinking, Benchmarks
Wann Sonnet vs. Opus – Kosten, Qualität und agentische Aufgaben
Rate Limits, Fallback-Verhalten und Organisations-Einstellungen kennen
Kontext-Management als wichtigste Ressource verstehen

Was ist Fast Mode?

Fast Mode ist ein Feature speziell für Claude Opus 4.6, das die Ausgabe-Geschwindigkeit deutlich erhöht – bei höheren Kosten pro Token. Wichtig: Fast Mode ist KEIN anderes Modell. Es nutzt dasselbe Opus 4.6 mit einer anderen API-Konfiguration, die Geschwindigkeit vor Kosteneffizienz priorisiert. Du bekommst identische Qualität und Fähigkeiten, nur schnellere Antworten. Fast Mode ist derzeit in der Research Preview – Preise, Verfügbarkeit und Verhalten können sich ändern.

💡 Kernkonzept Fast Mode = gleiche Intelligenz, niedrigere Latenz, höherer Preis. Es ist kein Qualitäts-Upgrade, sondern ein Geschwindigkeits-Boost für Opus 4.6.

WAS FAST MODE TECHNISCH IST
━━━━━━━━━━━━━━━━━━━━━━━━━━

Standard Opus 4.6:
┌─────────────────────────────────────┐
│  Modell: Opus 4.6                   │
│  API-Config: Kostenoptimiert        │
│  Latenz: Normal                     │
│  Preis: Standard                    │
└─────────────────────────────────────┘

Fast Mode Opus 4.6:
┌─────────────────────────────────────┐
│  Modell: Opus 4.6 (IDENTISCH!)     │
│  API-Config: Geschwindigkeitsopti.  │
│  Latenz: ~2.5x schneller           │
│  Preis: Höher ($30/$150 MTok)      │
└─────────────────────────────────────┘

→ Gleiche Qualität, gleiche Fähigkeiten
→ Einziger Unterschied: API-Routing
→ KEIN anderes Modell, KEIN Downgrade

Fast Mode aktivieren und deaktivieren

Es gibt zwei Wege, Fast Mode umzuschalten: 1. Slash-Command (empfohlen): Tippe /fast und drücke Tab – Fast Mode togglet an/aus. Funktioniert in der CLI und in der VS Code Extension. 2. Settings-Datei: Setze "fastMode": true in deiner User-Settings-Datei (z.B. ~/.claude/settings.json). Fast Mode bleibt über Sessions hinweg erhalten – du musst es nicht jedes Mal neu aktivieren. Was passiert beim Aktivieren? - Falls du ein anderes Modell nutzt, wechselt Claude Code automatisch zu Opus 4.6. - Du siehst die Bestätigung: „Fast mode ON". - Ein kleines ↯-Symbol erscheint neben dem Prompt, solange Fast Mode aktiv ist. - /fast erneut eingeben zeigt den aktuellen Status oder deaktiviert es. Was passiert beim Deaktivieren? - Du bleibst auf Opus 4.6 – das Modell wechselt NICHT zurück zum vorherigen Modell. - Um ein anderes Modell zu nutzen: /model sonnet oder /model Menü.

# Fast Mode in der Sitzung togglen
/fast

# Status prüfen (zeigt ON/OFF)
/fast

# Modell separat wechseln (Fast Mode bleibt unabhängig)
/model sonnet
/model opus

# Fast Mode über Settings-Datei dauerhaft setzen
# In ~/.claude/settings.json:
# { "fastMode": true }

Kosten und Preistabelle (offizielle Docs)

Fast Mode hat höhere Token-Preise als Standard-Opus. Offizielle Preistabelle (Stand: Februar 2026, Research Preview): | Modus | Input (pro 1M Token) | Output (pro 1M Token) | |---|---|---| | Fast Mode Opus 4.6 (< 200K Kontext) | $30 | $150 | | Fast Mode Opus 4.6 (> 200K Kontext) | $60 | $225 | Fast Mode ist kompatibel mit dem erweiterten 1M-Token-Kontextfenster. Beachte: Bei mehr als 200K Token Kontext verdoppeln sich die Input-Kosten und die Output-Kosten steigen um 50%.

⚠️ Kostenfalle: Mid-Conversation-Aktivierung Wenn du Fast Mode MITTEN in einer Konversation einschaltest, zahlst du den vollen uncached Fast-Mode-Input-Preis für den gesamten bisherigen Kontext. Das ist deutlich teurer als wenn du Fast Mode von Anfang an aktiviert hättest. Tipp: Fast Mode am besten am Session-Start aktivieren!

Fast Mode wird direkt über Extra Usage abgerechnet – auch wenn du noch Abo-Kontingent übrig hast. Fast-Mode-Tokens zählen nicht gegen dein Plan-Kontingent und werden ab dem ersten Token zum Fast-Mode-Preis berechnet. Kostenbeispiel: Du hast eine Konversation mit 100K Token Kontext aufgebaut (Standard-Opus). Jetzt schaltest du Fast Mode ein. Dein nächster Prompt sendet alle 100K Token als Input zum Fast-Mode-Preis ($30/MTok statt Standard). Das sind $3 extra für den einen Prompt, nur weil du mittendrin gewechselt hast. Hättest du von Anfang an Fast Mode genutzt, wäre der Kontext bereits gecacht und günstiger.

Fast Mode vs. Effort Level – zwei verschiedene Hebel

Viele Einsteiger verwechseln Fast Mode und Effort Level. Beide beeinflussen die Antwort-Geschwindigkeit, aber auf völlig unterschiedliche Art: | Einstellung | Was es tut | Qualitätseffekt | Kosteneffekt | |---|---|---|---| | Fast Mode | API-Routing priorisiert Geschwindigkeit | Keine Qualitätsänderung | Höhere Kosten | | Niedriger Effort | Weniger Extended Thinking | Potenziell niedrigere Qualität bei Komplexem | Niedrigere Kosten | | Beides kombiniert | Schnellste Antworten möglich | Potenziell niedrigere Qualität | Höhere Kosten durch Fast Mode, aber weniger Tokens durch niedrigeren Effort | Du kannst beides kombinieren: Fast Mode + niedriger Effort Level = maximale Geschwindigkeit für einfache Tasks. Effort Level reduziert die Menge an internem „Nachdenken" (Extended Thinking), die Claude verwendet. Bei einfachen Aufgaben (Formatierung, Umbenennung, kleine Edits) ist ein niedriger Effort Level sinnvoll. Bei Architektur-Entscheidungen oder komplexem Debugging brauchst du vollen Effort. Extended Thinking (Adaptive bei Opus 4.6): Bei Opus 4.6 ist das Thinking adaptiv – das Modell entscheidet selbst, wie viel Nachdenken eine Aufgabe braucht, statt ein festes Budget zu haben. Ein niedriger Effort Level überschreibt dieses adaptive Verhalten und zwingt das Modell, weniger zu denken.

💡 Praxis-Empfehlung: Die vier Geschwindigkeits-Stufen Stufe 1 (maximale Qualität): Opus + kein Fast Mode + voller Effort → Architektur, Plan Mode Stufe 2 (Standard): Opus + kein Fast Mode + Standard Effort → Tägliche Entwicklung Stufe 3 (schnelle Iteration): Opus + Fast Mode + Standard Effort → Rapid Prototyping, Debugging Stufe 4 (maximale Geschwindigkeit): Opus + Fast Mode + niedriger Effort → Triviale Aufgaben, Formatting

Voraussetzungen für Fast Mode

Fast Mode erfordert ALLE folgenden Bedingungen:
Opus 4.6 Modell: Fast Mode funktioniert ausschließlich mit Opus 4.6 (claude-opus-4-6 / Alias opus).
Extra Usage aktiviert: Dein Account muss Extra Usage aktiviert haben – in den Console Billing Settings oder durch einen Team-Admin.
Nicht auf Drittanbieter-Clouds: Fast Mode ist NICHT verfügbar auf Amazon Bedrock, Google Vertex AI oder Microsoft Azure Foundry. Nur über Anthropic Console API und Claude-Abo-Pläne.
Teams/Enterprise: Admin muss freigeben: Fast Mode ist standardmäßig deaktiviert für Teams/Enterprise. Ein Admin muss es explizit in den Claude Code Preferences oder Admin Settings aktivieren.
Wenn dein Admin Fast Mode nicht freigegeben hat, zeigt /fast die Meldung: „Fast mode has been disabled by your organization."

CHECKLISTE: FAST MODE AKTIVIEREN
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

□ Claude Code installiert und authentifiziert
□ Abo-Plan: Pro, Max, Team oder Enterprise
□ Extra Usage in Billing Settings aktiviert
  → Console: platform.claude.com/settings/organization/billing
□ Nicht auf Bedrock/Vertex/Azure (nicht unterstützt)
□ Bei Teams/Enterprise: Admin hat Fast Mode freigeschaltet
  → Console: platform.claude.com/claude-code/preferences
  → Claude AI: claude.ai/admin-settings/claude-code
□ In Claude Code: /model opus (falls noch nicht)
□ /fast → "Fast mode ON" + ↯-Symbol erscheint

WENN ES NICHT KLAPPT:
• "Fast mode has been disabled by your organization"
  → Admin muss es freischalten
• Kein ↯-Symbol?
  → Falsches Modell? Nur Opus 4.6 unterstützt Fast Mode
• Fehler bei Extra Usage?
  → Billing Settings prüfen

Rate Limits und automatischer Fallback

Fast Mode hat separate Rate Limits von Standard-Opus. Wenn du das Fast-Mode-Limit erreichst oder dein Extra-Usage-Guthaben aufgebraucht ist, passiert automatisch Folgendes: 1. Fast Mode fällt automatisch auf Standard-Opus 4.6 zurück. 2. Das ↯-Symbol wird grau → Cooldown-Anzeige. 3. Du arbeitest mit Standardgeschwindigkeit und Standardpreisen weiter – kein Abbruch, keine Error-Message, keine Unterbrechung. 4. Wenn der Cooldown abläuft, wird Fast Mode automatisch wieder aktiviert. Du kannst Fast Mode auch manuell deaktivieren statt auf den Cooldown zu warten: einfach /fast erneut eingeben. Wichtig: Der Fallback ist nahtlos. Du merkst es nur am grauen ↯-Symbol und der etwas langsameren Antwortzeit. Der Workflow wird nicht unterbrochen. Wenn du in einem kritischen Debugging-Moment bist, musst du dir keine Sorgen machen.

Opus 4.6 im Detail – warum es für Claude Code zählt

Opus 4.6 ist Anthropics leistungsstärkstes Modell, veröffentlicht am 5. Februar 2026. Es ist speziell für agentische und langfristige Aufgaben optimiert. Laut Anthropic plant es sorgfältiger, hält agentische Tasks länger durch, arbeitet zuverlässiger in großen Codebases und hat bessere Code-Review- und Debugging-Fähigkeiten – auch um eigene Fehler zu erkennen. In Claude Code ist Opus 4.6 die erste Wahl wenn es um die schwierigsten Aufgaben geht. Aber es ist auch die teuerste Option. Das Verständnis der drei Kernfeatures hilft dir, es gezielt und kosteneffizient einzusetzen.

Feature 1: Das 1M Token Kontextfenster (Beta)

Das Standard-Kontextfenster war bei älteren Claude-Modellen 200K Token. Seit März 2026 bieten Opus 4.6 und Sonnet 4.6 ein 1M Token Context Window als GA (Generally Available) — ohne Beta-Header, zum Standard-Preis. Was bedeutet 1M Token in der Praxis? - Eine durchschnittliche Code-Datei hat 200-500 Token. - Ein ganzes Monorepo mit 500 Dateien = ca. 150K-250K Token. - Mit 1M Token kannst du also mehrere komplette Projekte oder ein sehr großes Projekt vollständig im Kontext haben. - Lange Konversationen mit vielen File-Reads und Tool-Outputs bleiben länger im Kontext, bevor Compaction nötig wird. Aber Achtung: Mehr Kontext ≠ automatisch bessere Ergebnisse. Die offiziellen Best Practices betonen: Das Kontextfenster ist die wichtigste Ressource, die du managen musst. Bei vollem Kontext leidet die Qualität – auch bei 1M. Und mehr Token im Kontext = höhere Kosten (besonders im Fast Mode mit >200K: $60/$225 MTok). Die empfohlene Strategie: Nutze Skills und Subagents, um den Kontext gezielt zu beladen statt alles auf einmal zu laden. Lies nicht blind alle Dateien ein, sondern lass Claude zuerst suchen und dann gezielt lesen.

Feature 2: Adaptive Reasoning (Extended Thinking)

Frühere Modelle hatten ein festes Thinking-Budget: Entweder Extended Thinking an oder aus. Opus 4.6 führt Adaptive Reasoning ein – das Modell entscheidet dynamisch, wie viel „Nachdenken" eine Aufgabe braucht. Einfache Aufgabe (z.B. „Benenne die Variable x um in userId"): → Wenig internes Reasoning, schnelle Antwort, wenige Thinking-Tokens. Mittlere Aufgabe (z.B. „Implementiere eine Pagination-Komponente"): → Moderates Reasoning, überlegt kurz über API-Design und Edge Cases. Komplexe Aufgabe (z.B. „Analysiere die Architektur und schlage eine Migration von REST zu GraphQL vor"): → Tiefes Reasoning, umfangreiche interne Analyse, viele Thinking-Tokens. Das spart Tokens und Geld bei simplen Aufgaben und liefert die nötige Tiefe bei schwierigen. Du musst das Thinking-Budget nicht mehr manuell steuern – Opus 4.6 macht das adaptiv. In der Praxis: Du merkst den Unterschied daran, dass triviale Antworten schneller kommen und komplexe Antworten sorgfältiger durchdacht sind. Das adaptive Verhalten lässt sich über den Effort Level beeinflussen: ein niedriger Effort Level „deckelt" die Thinking-Zeit auch bei komplexen Aufgaben.

Feature 3: Benchmark-Ergebnisse und was sie bedeuten

Opus 4.6 führt mehrere relevante Benchmarks an: Terminal-Bench 2.0 (Agentisches Coding): Testet, wie gut ein Modell autonome Coding-Tasks in einer Terminal-Umgebung durchführt – genau das, was Claude Code tut. Opus 4.6 hat den höchsten Score aller getesteten Modelle. Das bedeutet: Es ist besonders gut darin, Dateien zu lesen, Code zu schreiben, Tests auszuführen und Fehler zu finden – in einem langen, autonomen Workflow. Humanity's Last Exam (Komplexes Reasoning): Ein multidisziplinärer Reasoning-Test, der verschiedene Wissensdomänen abdeckt. Opus 4.6 hat die anderen Frontier-Modelle übertroffen. Das ist relevant für Aufgaben wie Architektur-Analyse, Code-Review mit tiefem Verständnis, oder wenn Claude Code Entscheidungen treffen muss, die breites Kontextwissen erfordern. Warum das für dich zählt: Wenn du Claude Code für einfache Aufgaben nutzt (Formatting, Umbenennung, kleine Edits), wirst du den Unterschied zwischen Sonnet und Opus kaum merken. Sobald die Aufgaben komplex werden – Multi-File-Refactorings, Architektur-Entscheidungen, schwieriges Debugging – hat Opus einen messbaren Qualitätsvorsprung.

Wann Sonnet – wann Opus?

Die Modellwahl ist eine der wichtigsten Entscheidungen in deinem Claude-Code-Workflow. Hier eine detaillierte Entscheidungshilfe:

MODELL-ENTSCHEIDUNGSBAUM
━━━━━━━━━━━━━━━━━━━━━━

Ist die Aufgabe klar definiert und betrifft wenige Dateien?
  → JA: Sonnet (günstiger, schneller)
  → NEIN: ↓

Erfordert die Aufgabe tiefes Architektur-Verständnis?
  → JA: Opus
  → NEIN: ↓

Betrifft die Aufgabe mehr als 5-10 Dateien?
  → JA: Opus (besseres Multi-File-Reasoning)
  → NEIN: ↓

Nutzt du Agent Teams oder mehrere Subagents?
  → JA: Opus für den Lead, Sonnet für einfache Teammates
  → NEIN: ↓

Wann brauchst du das volle 1M Context Window?
  → JA: Opus (1M Kontext-Fenster)
  → NEIN: Sonnet

FAUSTREGELN:
• 80% der täglichen Arbeit: Sonnet reicht
• 20% der schwierigen Aufgaben: Opus lohnt sich
• Spar-Tipp: Starte mit Sonnet, wechsle zu Opus wenn nötig
• Kosten-Tipp: Opus-Subagents nur für Kern-Tasks

Sonnet wählen für: - Alltags-Entwicklung mit schnellen Iterationen und klaren Tasks - Gut dokumentierte Codebases mit klaren Konventionen - Einfache Bug-Fixes, Feature-Implementierungen - Kostenbewusstes Arbeiten - Die meisten Subagent-Aufgaben (Code-Review einer Datei, Tests schreiben) Opus wählen für: - Unklare Architektur, komplexe Planungsfragen - Schwere Refactorings über viele Dateien - Code-Reviews mit Sicherheits-/Performance-Fokus - Multi-Agent-Setups als Lead (Agent Teams) - Wenn du das 1M-Kontextfenster brauchst - Schwieriges Debugging, wo systematisches Reasoning zählt - Plan Mode für komplexe Aufgaben

# Mit Opus starten (Alias)
claude --model opus

# In der Sitzung: Modell wechseln
/model opus
/model sonnet

# Fast Mode togglen (nur Opus 4.6)
/fast

# Kombination: Opus + Fast Mode für schnelle Iteration
# 1. /model opus  2. /fast

# Modell in CLAUDE.md als Empfehlung für das Projekt dokumentieren:
# (in CLAUDE.md)
# ## Modell-Empfehlung
# - Tägliche Arbeit: Sonnet
# - Architektur/Refactoring: Opus
# - Schnelle Iteration: Opus + /fast

Praxisszenarien: Fast Mode richtig einsetzen

Szenario 1 – Rapid Prototyping: Du baust schnell einen Prototyp und brauchst viele kleine Iterationen. Du sendest 20-30 Prompts in einer Stunde. → Fast Mode AN, Effort Standard. Schnelleres Feedback bei jedem Prompt. Die Zeitersparnis summiert sich. Szenario 2 – Live Debugging: Ein Bug tritt auf und du debuggst interaktiv mit Claude. Du liest Fehler, Claude schlägt Fixes vor, du testest – schnelle Zyklen. → Fast Mode AN. Die niedrigere Latenz macht den Dialog flüssiger. Szenario 3 – Lange autonome Aufgabe: Du gibst Claude ein großes Refactoring: „Migriere alle API-Routen von Express zu Fastify." Claude arbeitet 10 Minuten autonom. → Fast Mode AUS. Du wartest sowieso, und die Kosten wären unnötig höher. Szenario 4 – CI/CD Pipeline: Claude läuft headless in einer GitHub Action und reviewed einen PR. → Fast Mode AUS. Latenz ist irrelevant bei automatisierten Pipelines. Szenario 5 – Architektur-Planung im Plan Mode: Du brauchst maximale Reasoning-Tiefe für eine wichtige Architektur-Entscheidung. → Fast Mode AUS, voller Effort Level. Qualität vor Geschwindigkeit. Szenario 6 – Agent Teams mit Mixed Models: Lead auf Opus, Teammates auf Sonnet für einfache Tasks, einer auf Opus für den kritischen Pfad. → Lead mit Fast Mode für flüssige Koordination, Teammates ohne Fast Mode zur Kostenkontrolle.

Kontext-Management – die wichtigste Ressource

Die offiziellen Best Practices und „How Claude Code works" betonen: Das Kontextfenster ist die wichtigste Ressource, die du managen musst. Das gilt unabhängig vom Modell und unabhängig von Fast Mode. Wie der Kontext sich füllt: Jede Nachricht, jedes gelesene File, jeder Befehlsoutput und jede Tool-Antwort verbraucht Tokens im Kontextfenster. Eine einzige Debugging-Session oder Codebase-Exploration kann Zehntausende Tokens erzeugen. Bei vollem Kontext beginnt Claude, frühere Instruktionen zu „vergessen" oder mehr Fehler zu machen. Strategien zum Kontext-Management: - Nutze /compact oder die Summarize-Option in /rewind, um den Kontext gezielt zu komprimieren. - Delegiere Recherche an Subagents – sie haben eigene Kontextfenster und belasten deinen nicht. - Lies nicht blind alle Dateien ein: Lass Claude suchen, dann gezielt lesen. - Nutze Skills für Wissen, das nicht immer geladen sein muss. - Starte neue Sessions für neue Aufgabenbereiche statt alles in eine Session zu packen. - Beobachte die Kontextauslastung in der Statuszeile (konfigurierbar über Status Line Settings).

🎓 Zusammenfassung ✅ Fast Mode = gleiche Qualität, weniger Latenz, mehr Kosten ✅ Immer am Session-Start aktivieren (Mid-Conversation ist teurer!) ✅ Nur für Opus 4.6 verfügbar – wird automatisch gewechselt ✅ Automatischer Fallback bei Rate Limits (grauer ↯-Indikator) ✅ Fast Mode + Effort Level sind zwei unabhängige Geschwindigkeits-Hebel ✅ Vier Geschwindigkeitsstufen: Qualität → Standard → Schnell → Maximal ✅ Extra Usage muss aktiviert sein; Teams/Enterprise: Admin-Freigabe nötig ✅ Opus 4.6 = 1M Kontext (Beta), adaptives Thinking, beste Benchmarks ✅ 80/20-Regel: Sonnet für Alltag, Opus für Schwieriges ✅ Kontext-Management ist die wichtigste Ressource – unabhängig vom Modell