Claude-Code-Kostenoptimierung: 25-Punkte-Checkliste
Die Abrechnung von Claude Code ist vollständig transparent – jedes Token kostet etwas, und die Kosten erscheinen unmittelbar in Ihrer Anthropic-Konsole. Diese Transparenz ist wertvoll, weil sie Optimierung greifbar macht: Jeder Punkt dieser Checkliste hat einen messbaren Effekt auf Ihre Rechnung. In der Token-Mathematik gibt es kein „könnte vielleicht helfen“.
Die 25 Punkte sind nach Kategorien geordnet. Innerhalb jeder Kategorie stehen die wirkungsvollsten Punkte oben. Die Ersparnisangaben basieren auf realen Nutzungsmustern, nicht auf theoretischen Maximalwerten. Punkte mit der Kennzeichnung „geringer Aufwand“ sind in unter einer Stunde umgesetzt. Punkte mit „hohem Aufwand“ erfordern architektonische Änderungen.
Wie Sie diese Checkliste anwenden
Gehen Sie jede Kategorie gegen Ihren aktuellen Aufbau durch. Jeder Punkt, den Sie noch nicht umgesetzt haben, ist Geld, das Sie auf dem Tisch liegen lassen. Die insgesamt erreichbare Ersparnis hängt vom Workload ab; ein durchschnittlicher Entwickler, der Claude Code mit moderater Intensität (3 bis 5 Stunden pro Tag) einsetzt, kann die monatlichen API-Ausgaben durch das Abarbeiten aller 25 Punkte um 40 bis 60 Prozent senken.
cache_control im System-Prompt aktivieren
Wenn Sie die API direkt nutzen, kapseln Sie Ihren System-Prompt – oder einen großen Kontextblock, der über mehrere Anfragen hinweg wiederverwendet wird – in einen Block mit cache_control: {"type": "ephemeral"}. Gecachte Token kosten 10 Prozent eines normalen Input-Tokens. Bei einem 10.000-Token-System-Prompt, der täglich 50-mal wiederverwendet wird, sparen Sie auf diesem Weg 4,5 Millionen Token pro Tag.
system=[{
"type": "text",
"text": ihr_grosser_system_prompt,
"cache_control": {"type": "ephemeral"}
}]
Dokumente cachen, bevor Sie sie mehrfach abfragen
Wenn Sie mehrere Prompts gegen dasselbe Dokument laufen lassen (einen Codeausschnitt, eine Spezifikation, ein PDF), cachen Sie das Dokument in der ersten Anfrage. Jede weitere Anfrage, die den Cache trifft, zahlt nur 10 Prozent für das Dokument. Der Break-even liegt bei zwei Anfragen; ab der dritten lohnt es sich.
Cache-Trefferquote über die Response-Header überwachen
Lesen Sie usage.cache_read_input_tokens bei jeder API-Antwort aus. Liegt Ihre Trefferquote bei einer System-Prompt-lastigen Anwendung unter 60 Prozent, läuft der Cache ab, bevor Sie ihn nutzen können. Der ephemere Cache hält 5 Minuten; stellen Sie sicher, dass Ihre Anfragen innerhalb dieses Fensters eintreffen.
Gecachte Inhalte am Anfang des Prompts halten
Der Cache wird über Inhalt und Position geschlüsselt. Stehen dynamische Inhalte (Nutzernachricht, aktuelles Datum) vor Ihrem gecachten System-Prompt, greift der Cache nicht. Setzen Sie den statischen, großen Block an den Anfang. Setzen Sie die dynamischen Inhalte ans Ende.
Erweiterten Cache (1-Stunden-TTL) für große, stabile Kontexte nutzen
Der ephemere Standard-Cache hält 5 Minuten. Wenn Ihr Kontext groß ist (etwa ein vollständiger Codebase-Index) und sich selten ändert, bietet Anthropic ein erweitertes Caching mit einer TTL von einer Stunde an: leicht erhöhte Cache-Write-Kosten gegen niedrigere Cache-Read-Kosten pro Stunde. Lohnt sich für Kontexte oberhalb von 100.000 Token.
CLAUDE.md-Inhalte in langen Claude-Code-Sitzungen cachen
In Claude-Code-Sitzungen wird der Inhalt der CLAUDE.md jeder Nachricht vorangestellt. Eine 5.000-Token-CLAUDE.md bedeutet 5.000 berechnete Token pro Runde. Halten Sie die CLAUDE.md schlank und lagern Sie projektspezifischen Kontext in eine separate Datei aus, die nur bei Bedarf einbezogen wird – statt in jede Runde injiziert zu werden.
Haiku für Klassifikations- und Routing-Aufgaben einsetzen
Haiku 3.5 kostet 0,25 USD pro Million Input-Token, Sonnet 4.5 dagegen 3 USD. Für Aufgaben, die im Kern Mustererkennung sind (diesen Fehler klassifizieren, dieses Issue kategorisieren, entspricht dieser Text den Kriterien), liefert Haiku gleichwertige Qualität zum Zwölftel des Preises. Prüfen Sie Ihre Sub-Agenten – alles mit maximal 3 Runden und einer Klassifikations-Ausgabe sollte auf Haiku laufen.
Sonnet nur dort einsetzen, wo Reasoning zählt
Sonnet ist seinen Preis wert für: Code-Review, Sicherheitsaudit, mehrstufiges Reasoning und alles, was widersprüchliche Informationen synthetisieren muss. Es ist seinen Preis nicht wert für: Dokumentationsgenerierung, Changelog-Schreiben, strukturierte Datenextraktion oder alles mit deterministischem Format.
max_tokens je Agent konservativ setzen
Die API rechnet die generierten Token ab, nicht die angeforderten. Doch ein zu hoch gesetztes max_tokens, das Sie nicht brauchen, kann dazu führen, dass Claude mehr generiert als nötig. Bei strukturierten Ausgaben (JSON, YAML, Tabellen) zwingt ein niedrigeres max_tokens das Modell zudem zu mehr Knappheit. Prüfen Sie die tatsächliche Ausgabelänge je Agent und setzen Sie max_tokens auf 120 Prozent des beobachteten p95-Outputs.
Streaming für lange Ausgaben nutzen und bei Bedarf früh abbrechen
Wenn Sie Streaming verwenden, können Sie mitten im Stream abbrechen, sobald Sie genug Output haben. Auf API-Ebene werden teilweise gestreamte Antworten nach den bis dahin generierten Token abgerechnet, nicht nach dem gesamten max_tokens. Bei Anwendungen, die häufig nur den ersten Teil einer langen Ausgabe benötigen, senken Streaming und früher Abbruch die Output-Token-Kosten um 40 bis 70 Prozent.
Opus dort meiden, wo Sonnet die Aufgabe ebenso gut erledigt
Opus kostet 15 USD pro Million Input-Token – das Fünffache von Sonnet. Der Qualitätsunterschied zwischen Opus und Sonnet ist bei offener kreativer Arbeit und komplexem mehrstufigem Reasoning erheblich. Bei Code-Aufgaben, strukturierter Ausgabe und den meisten Entwickler-Workflows zieht Sonnet qualitativ mit Opus gleich – zu einem Fünftel des Preises. Benchmarken Sie, bevor Sie Opus zur Standardwahl machen.
Vor langen Sitzungen jenseits der 50.000 Token /compact ausführen
Der Befehl /compact in Claude Code fasst den Sitzungskontext zusammen und ersetzt ihn durch eine komprimierte Version. Aus einer 100.000-Token-Sitzung wird eine 5.000-Token-Zusammenfassung. Der Qualitätsverlust für die Aufgabenkontinuität ist minimal; die Kostenersparnis ist erheblich. Führen Sie ihn alle zwei Stunden in aktiven Sitzungen aus.
Grep und Read nutzen, statt Claude die Codebase erkunden zu lassen
Erkundet Claude eine Codebase ohne Anleitung, liest es viele Dateien, um Kontext aufzubauen. Das gezielte Verweisen auf relevante Dateien („lies app/api/users.ts und das User-Modell“) reduziert den Kontext um eine Größenordnung. Nutzen Sie Grep, um relevante Dateien zu finden, bevor Sie Claude bitten, sie zu lesen.
CLAUDE.md unter 300 Zeilen halten
Jede Zeile einer CLAUDE.md ist ein Token, das jeder Nachricht in der Sitzung vorangestellt wird. Eine 3.000-Zeilen-CLAUDE.md fügt jeder Runde rund 4.500 Token hinzu. Eine 300-Zeilen-CLAUDE.md fügt rund 450 Token hinzu. Der Beitrag Das Problem der 3.000 Zeilen langen CLAUDE.md beschreibt, wie Sie sie strukturieren, um den Token-Verbrauch zu minimieren, ohne an Abdeckung zu verlieren.
Werkzeugzugriff von Sub-Agenten auf das Notwendige beschränken
Ein Sub-Agent mit Zugriff auf alle Werkzeuge wird sie auch nutzen. Ein Sub-Agent mit Zugriff auf nur [Read, Grep] kann keinen Bash-Prozess starten und kein 10-MB-Logfile in den Kontext laden. Werkzeugbeschränkung ist gleichzeitig ein Kostenschutzgeländer und eine Sicherheitskontrolle.
Diffs statt vollständiger Dateien an Review-Agenten übergeben
Bei einem Code-Review-Agenten übergeben Sie die Ausgabe von git diff HEAD~1 statt der vollständigen Dateiinhalte. Eine 2.000-Zeilen-Datei mit 40 geänderten Zeilen kostet 2.000 Token, wenn Sie die Datei übergeben, und 200 Token, wenn Sie das Diff übergeben. Bei Review-Workflows reicht das Diff fast immer aus.
Die Batch-API für jeden nicht zeitkritischen Workload nutzen
Die Batch-API von Anthropic kostet pro Token 50 Prozent weniger als die Echtzeit-API. Sie nimmt bis zu 10.000 Anfragen pro Batch entgegen und verarbeitet sie innerhalb von 24 Stunden. Wenn Ihr Anwendungsfall keine Antwort in unter 60 Sekunden braucht, ist die Batch-API die richtige Wahl. Dokumentenanalyse, Testgenerierung, Changelog-Schreiben – alle batch-fähig.
Anfragen vor dem Versand an die API deduplizieren
Wenn Ihre Anwendung denselben Prompt zweimal senden könnte (gleiche Nutzeranfrage, gleiche Dokumentenanalyse), prüfen Sie die Anfrage anhand eines lokalen Hashs, bevor Sie die API aufrufen. Ein SHA-256-Hash über (Modell + System-Prompt + Nutzernachricht) identifiziert Duplikate. Cachen Sie die Antwort unter dem Hash. Eine Duplikatsrate von 5 Prozent in einer Anwendung mit hohem Volumen bedeutet über einen Monat erhebliche Einsparungen.
Ähnliche Anfragen zu einem mehrteiligen Prompt bündeln
Müssen Sie auf 20 Dokumenten dieselbe Operation ausführen (zusammenfassen, klassifizieren, extrahieren), kostet ein Mehr-Dokument-Request häufig weniger als 20 Einzel-Requests, weil der System-Prompt nur einmal bezahlt wird. Prüfen Sie das gegen Ihre tatsächliche Token-Mathematik – sehr große Bündel können das Kontextlimit sprengen und ein erneutes Splitten erzwingen.
Request Coalescing für identische gleichzeitige Anfragen umsetzen
In Anwendungen mit hohem Aufkommen können mehrere Nutzer denselben API-Aufruf gleichzeitig auslösen (gleicher Bericht, gleiche Analyse). Coalescing bedeutet: Solange eine Anfrage in Bearbeitung ist, warten nachfolgende identische Anfragen auf die erste Antwort und teilen sie sich. Die Ersparnis ist proportional zu Ihren gleichzeitigen Lastspitzen.
Batch-Jobs außerhalb der Stoßzeiten einreichen, um Priorität zu erhalten
Die Batch-API-Verarbeitungszeit hängt von der Last bei Anthropic ab. Reichen Sie Batches in Schwachlastzeiten ein (UTC 02:00–08:00), erfolgt der Abschluss typischerweise schneller, ohne Mehrkosten. Bei Batches mit 24-Stunden-Fenster ist „um Mitternacht einreichen, am Morgen die Ergebnisse abholen“ ein verlässliches Muster.
Sitzungs- und Tagesbudgets über PreToolUse-Hooks setzen
Ein PreToolUse-Hook läuft vor jedem Werkzeugaufruf. Ein 30-Zeilen-Hook, der die kumulierten Sitzungskosten aus ~/.claude/projects/ liest und bei Überschreitung von 10 USD die Sitzung anhält, verhindert Tokenocalypse-Szenarien. Der Hook feuert, bevor der API-Aufruf Ihre Maschine verlässt – einen sanfteren Eingriffspunkt gibt es nicht.
max_turns auf allen Sub-Agenten setzen
Ein Sub-Agent ohne max_turns-Limit kann unbegrenzt laufen. Setzen Sie max_turns: 10 auf den meisten Agenten und max_turns: 5 auf Agenten mit einfachen, klar abgegrenzten Aufgaben. Ein außer Kontrolle geratener Sub-Agent mit 50 Runden kostet bei gleicher Aufgabe das Fünf- bis Zehnfache eines sauber begrenzten.
Bei Kostenausreißern – nicht nur bei Monatssummen – protokollieren und alarmieren
Monatliche Abrechnungs-Alarme erfassen Tokenocalypse-Ereignisse erst nach dem Schaden. Tageskosten-Alarme (E-Mail oder Slack-Webhook, sobald die Tagesausgaben die zweifache Basislinie überschreiten) erfassen sie rechtzeitig zum Eingreifen. Die Anthropic-Konsole unterstützt tägliche Schwellenwert-Alarme. Aktivieren Sie sie.
Zombie-Sitzungen abräumen, bevor sie sich anhäufen
Eine offene, aber unbeaufsichtigte Claude-Code-Sitzung verursacht weiterhin Kosten, sobald ein Sub-Agent einen Werkzeugaufruf tätigt. Listen Sie aktive Sitzungen mit claude sessions list und beenden Sie alle, die Sie nicht aktiv nutzen. Auf Maschinen, die mehrere Entwickler teilen, sind Zombie-Sitzungen eine erhebliche und unsichtbare Kostenquelle.
Wo Sie anfangen sollten
Wenn Sie diese Woche nur fünf Punkte umsetzen, dann diese: 01 (Prompt-Caching aktivieren), 07 (Klassifikationsaufgaben auf Haiku umstellen), 12 (regelmäßig /compact ausführen), 22 (Budget-Limits per Hook setzen) und 23 (max_turns auf jedem Agenten setzen). Diese fünf adressieren die wirkungsvollsten Kategorien und kosten zusammen weniger als zwei Stunden Aufwand.
Die übrigen 20 Punkte sind eine lohnende Aufgabe für die nächsten Wochen. Führen Sie ccusage total vor und nach jeder Kategorie aus, um den tatsächlichen Effekt auf Ihren Workload zu messen. Die Zahlen in diesem Beitrag sind Schätzungen; Ihre tatsächliche Ersparnis hängt von Ihren konkreten Nutzungsmustern ab.
Septim Drills: 47 Übungen, einschließlich Hook-Konfiguration und Kosten-Schutzgeländer
Punkt 22 und 23 (PreToolUse-Hooks und max_turns) erfordern das Schreiben von Hook-Skripten und YAML-Agent-Konfigurationen. Septim Drills enthält 47 strukturierte Übungen, die beides anhand realer Beispiele aus produktiven Claude-Code-Workflows durchgehen. Einmal kaufen.