· kostenkontrolle · checkliste · april 2026 ·

Claude-Code-Kostenoptimierung: 25-Punkte-Checkliste

CACHING -55% MODELL -60% KONTEXT -40% BATCH -50% HOOKS -30%
// RUBRIK Kostenkontrolle// DATUM 28. APR 2026// SLUG /de/blog/claude-code-cost-optimization-checklist-2026.htmlzitieren →

Die Abrechnung von Claude Code ist vollständig transparent – jedes Token kostet etwas, und die Kosten erscheinen unmittelbar in Ihrer Anthropic-Konsole. Diese Transparenz ist wertvoll, weil sie Optimierung greifbar macht: Jeder Punkt dieser Checkliste hat einen messbaren Effekt auf Ihre Rechnung. In der Token-Mathematik gibt es kein „könnte vielleicht helfen“.

Die 25 Punkte sind nach Kategorien geordnet. Innerhalb jeder Kategorie stehen die wirkungsvollsten Punkte oben. Die Ersparnisangaben basieren auf realen Nutzungsmustern, nicht auf theoretischen Maximalwerten. Punkte mit der Kennzeichnung „geringer Aufwand“ sind in unter einer Stunde umgesetzt. Punkte mit „hohem Aufwand“ erfordern architektonische Änderungen.

Wie Sie diese Checkliste anwenden

Gehen Sie jede Kategorie gegen Ihren aktuellen Aufbau durch. Jeder Punkt, den Sie noch nicht umgesetzt haben, ist Geld, das Sie auf dem Tisch liegen lassen. Die insgesamt erreichbare Ersparnis hängt vom Workload ab; ein durchschnittlicher Entwickler, der Claude Code mit moderater Intensität (3 bis 5 Stunden pro Tag) einsetzt, kann die monatlichen API-Ausgaben durch das Abarbeiten aller 25 Punkte um 40 bis 60 Prozent senken.

// 1. Prompt-Caching · 6 Punkte
01

cache_control im System-Prompt aktivieren

Wenn Sie die API direkt nutzen, kapseln Sie Ihren System-Prompt – oder einen großen Kontextblock, der über mehrere Anfragen hinweg wiederverwendet wird – in einen Block mit cache_control: {"type": "ephemeral"}. Gecachte Token kosten 10 Prozent eines normalen Input-Tokens. Bei einem 10.000-Token-System-Prompt, der täglich 50-mal wiederverwendet wird, sparen Sie auf diesem Weg 4,5 Millionen Token pro Tag.

system=[{
  "type": "text",
  "text": ihr_grosser_system_prompt,
  "cache_control": {"type": "ephemeral"}
}]
-55%Input-Token · geringer Aufwand
02

Dokumente cachen, bevor Sie sie mehrfach abfragen

Wenn Sie mehrere Prompts gegen dasselbe Dokument laufen lassen (einen Codeausschnitt, eine Spezifikation, ein PDF), cachen Sie das Dokument in der ersten Anfrage. Jede weitere Anfrage, die den Cache trifft, zahlt nur 10 Prozent für das Dokument. Der Break-even liegt bei zwei Anfragen; ab der dritten lohnt es sich.

-45%Mehrfachzugriff · gering
03

Cache-Trefferquote über die Response-Header überwachen

Lesen Sie usage.cache_read_input_tokens bei jeder API-Antwort aus. Liegt Ihre Trefferquote bei einer System-Prompt-lastigen Anwendung unter 60 Prozent, läuft der Cache ab, bevor Sie ihn nutzen können. Der ephemere Cache hält 5 Minuten; stellen Sie sicher, dass Ihre Anfragen innerhalb dieses Fensters eintreffen.

DiagnoseTrefferquote · gering
04

Gecachte Inhalte am Anfang des Prompts halten

Der Cache wird über Inhalt und Position geschlüsselt. Stehen dynamische Inhalte (Nutzernachricht, aktuelles Datum) vor Ihrem gecachten System-Prompt, greift der Cache nicht. Setzen Sie den statischen, großen Block an den Anfang. Setzen Sie die dynamischen Inhalte ans Ende.

aktiviert CachingPrompt-Struktur · gering
05

Erweiterten Cache (1-Stunden-TTL) für große, stabile Kontexte nutzen

Der ephemere Standard-Cache hält 5 Minuten. Wenn Ihr Kontext groß ist (etwa ein vollständiger Codebase-Index) und sich selten ändert, bietet Anthropic ein erweitertes Caching mit einer TTL von einer Stunde an: leicht erhöhte Cache-Write-Kosten gegen niedrigere Cache-Read-Kosten pro Stunde. Lohnt sich für Kontexte oberhalb von 100.000 Token.

-30%Großkontext · mittel
06

CLAUDE.md-Inhalte in langen Claude-Code-Sitzungen cachen

In Claude-Code-Sitzungen wird der Inhalt der CLAUDE.md jeder Nachricht vorangestellt. Eine 5.000-Token-CLAUDE.md bedeutet 5.000 berechnete Token pro Runde. Halten Sie die CLAUDE.md schlank und lagern Sie projektspezifischen Kontext in eine separate Datei aus, die nur bei Bedarf einbezogen wird – statt in jede Runde injiziert zu werden.

-20%Sitzungs-Token · gering
// 2. Modellauswahl · 5 Punkte
07

Haiku für Klassifikations- und Routing-Aufgaben einsetzen

Haiku 3.5 kostet 0,25 USD pro Million Input-Token, Sonnet 4.5 dagegen 3 USD. Für Aufgaben, die im Kern Mustererkennung sind (diesen Fehler klassifizieren, dieses Issue kategorisieren, entspricht dieser Text den Kriterien), liefert Haiku gleichwertige Qualität zum Zwölftel des Preises. Prüfen Sie Ihre Sub-Agenten – alles mit maximal 3 Runden und einer Klassifikations-Ausgabe sollte auf Haiku laufen.

-92%pro Token · Modellwechsel
08

Sonnet nur dort einsetzen, wo Reasoning zählt

Sonnet ist seinen Preis wert für: Code-Review, Sicherheitsaudit, mehrstufiges Reasoning und alles, was widersprüchliche Informationen synthetisieren muss. Es ist seinen Preis nicht wert für: Dokumentationsgenerierung, Changelog-Schreiben, strukturierte Datenextraktion oder alles mit deterministischem Format.

-60%gemischte Workloads · Audit
09

max_tokens je Agent konservativ setzen

Die API rechnet die generierten Token ab, nicht die angeforderten. Doch ein zu hoch gesetztes max_tokens, das Sie nicht brauchen, kann dazu führen, dass Claude mehr generiert als nötig. Bei strukturierten Ausgaben (JSON, YAML, Tabellen) zwingt ein niedrigeres max_tokens das Modell zudem zu mehr Knappheit. Prüfen Sie die tatsächliche Ausgabelänge je Agent und setzen Sie max_tokens auf 120 Prozent des beobachteten p95-Outputs.

-15%Output-Token · mittel
10

Streaming für lange Ausgaben nutzen und bei Bedarf früh abbrechen

Wenn Sie Streaming verwenden, können Sie mitten im Stream abbrechen, sobald Sie genug Output haben. Auf API-Ebene werden teilweise gestreamte Antworten nach den bis dahin generierten Token abgerechnet, nicht nach dem gesamten max_tokens. Bei Anwendungen, die häufig nur den ersten Teil einer langen Ausgabe benötigen, senken Streaming und früher Abbruch die Output-Token-Kosten um 40 bis 70 Prozent.

-40%Output-Token · hoch
11

Opus dort meiden, wo Sonnet die Aufgabe ebenso gut erledigt

Opus kostet 15 USD pro Million Input-Token – das Fünffache von Sonnet. Der Qualitätsunterschied zwischen Opus und Sonnet ist bei offener kreativer Arbeit und komplexem mehrstufigem Reasoning erheblich. Bei Code-Aufgaben, strukturierter Ausgabe und den meisten Entwickler-Workflows zieht Sonnet qualitativ mit Opus gleich – zu einem Fünftel des Preises. Benchmarken Sie, bevor Sie Opus zur Standardwahl machen.

-80%gegen Opus · vorher benchmarken
// 3. Kontextmanagement · 5 Punkte
12

Vor langen Sitzungen jenseits der 50.000 Token /compact ausführen

Der Befehl /compact in Claude Code fasst den Sitzungskontext zusammen und ersetzt ihn durch eine komprimierte Version. Aus einer 100.000-Token-Sitzung wird eine 5.000-Token-Zusammenfassung. Der Qualitätsverlust für die Aufgabenkontinuität ist minimal; die Kostenersparnis ist erheblich. Führen Sie ihn alle zwei Stunden in aktiven Sitzungen aus.

-80%Kontext-Token · gering
13

Grep und Read nutzen, statt Claude die Codebase erkunden zu lassen

Erkundet Claude eine Codebase ohne Anleitung, liest es viele Dateien, um Kontext aufzubauen. Das gezielte Verweisen auf relevante Dateien („lies app/api/users.ts und das User-Modell“) reduziert den Kontext um eine Größenordnung. Nutzen Sie Grep, um relevante Dateien zu finden, bevor Sie Claude bitten, sie zu lesen.

-50%Erkundungsaufgaben · mittel
14

CLAUDE.md unter 300 Zeilen halten

Jede Zeile einer CLAUDE.md ist ein Token, das jeder Nachricht in der Sitzung vorangestellt wird. Eine 3.000-Zeilen-CLAUDE.md fügt jeder Runde rund 4.500 Token hinzu. Eine 300-Zeilen-CLAUDE.md fügt rund 450 Token hinzu. Der Beitrag Das Problem der 3.000 Zeilen langen CLAUDE.md beschreibt, wie Sie sie strukturieren, um den Token-Verbrauch zu minimieren, ohne an Abdeckung zu verlieren.

-30%Sitzungs-Token · mittel
15

Werkzeugzugriff von Sub-Agenten auf das Notwendige beschränken

Ein Sub-Agent mit Zugriff auf alle Werkzeuge wird sie auch nutzen. Ein Sub-Agent mit Zugriff auf nur [Read, Grep] kann keinen Bash-Prozess starten und kein 10-MB-Logfile in den Kontext laden. Werkzeugbeschränkung ist gleichzeitig ein Kostenschutzgeländer und eine Sicherheitskontrolle.

-25%je Agent · gering
16

Diffs statt vollständiger Dateien an Review-Agenten übergeben

Bei einem Code-Review-Agenten übergeben Sie die Ausgabe von git diff HEAD~1 statt der vollständigen Dateiinhalte. Eine 2.000-Zeilen-Datei mit 40 geänderten Zeilen kostet 2.000 Token, wenn Sie die Datei übergeben, und 200 Token, wenn Sie das Diff übergeben. Bei Review-Workflows reicht das Diff fast immer aus.

-90%Review-Aufgaben · mittel
// 4. Batch- und Async-Muster · 5 Punkte
17

Die Batch-API für jeden nicht zeitkritischen Workload nutzen

Die Batch-API von Anthropic kostet pro Token 50 Prozent weniger als die Echtzeit-API. Sie nimmt bis zu 10.000 Anfragen pro Batch entgegen und verarbeitet sie innerhalb von 24 Stunden. Wenn Ihr Anwendungsfall keine Antwort in unter 60 Sekunden braucht, ist die Batch-API die richtige Wahl. Dokumentenanalyse, Testgenerierung, Changelog-Schreiben – alle batch-fähig.

-50%alle Token · mittel
18

Anfragen vor dem Versand an die API deduplizieren

Wenn Ihre Anwendung denselben Prompt zweimal senden könnte (gleiche Nutzeranfrage, gleiche Dokumentenanalyse), prüfen Sie die Anfrage anhand eines lokalen Hashs, bevor Sie die API aufrufen. Ein SHA-256-Hash über (Modell + System-Prompt + Nutzernachricht) identifiziert Duplikate. Cachen Sie die Antwort unter dem Hash. Eine Duplikatsrate von 5 Prozent in einer Anwendung mit hohem Volumen bedeutet über einen Monat erhebliche Einsparungen.

variabelDedup-Quote · mittel
19

Ähnliche Anfragen zu einem mehrteiligen Prompt bündeln

Müssen Sie auf 20 Dokumenten dieselbe Operation ausführen (zusammenfassen, klassifizieren, extrahieren), kostet ein Mehr-Dokument-Request häufig weniger als 20 Einzel-Requests, weil der System-Prompt nur einmal bezahlt wird. Prüfen Sie das gegen Ihre tatsächliche Token-Mathematik – sehr große Bündel können das Kontextlimit sprengen und ein erneutes Splitten erzwingen.

-25%Batch-Overhead · mittel
20

Request Coalescing für identische gleichzeitige Anfragen umsetzen

In Anwendungen mit hohem Aufkommen können mehrere Nutzer denselben API-Aufruf gleichzeitig auslösen (gleicher Bericht, gleiche Analyse). Coalescing bedeutet: Solange eine Anfrage in Bearbeitung ist, warten nachfolgende identische Anfragen auf die erste Antwort und teilen sie sich. Die Ersparnis ist proportional zu Ihren gleichzeitigen Lastspitzen.

variabelParallellast · hoch
21

Batch-Jobs außerhalb der Stoßzeiten einreichen, um Priorität zu erhalten

Die Batch-API-Verarbeitungszeit hängt von der Last bei Anthropic ab. Reichen Sie Batches in Schwachlastzeiten ein (UTC 02:00–08:00), erfolgt der Abschluss typischerweise schneller, ohne Mehrkosten. Bei Batches mit 24-Stunden-Fenster ist „um Mitternacht einreichen, am Morgen die Ergebnisse abholen“ ein verlässliches Muster.

schnellere BearbeitungPlanung · gering
// 5. Schutzgeländer und Limits · 4 Punkte
22

Sitzungs- und Tagesbudgets über PreToolUse-Hooks setzen

Ein PreToolUse-Hook läuft vor jedem Werkzeugaufruf. Ein 30-Zeilen-Hook, der die kumulierten Sitzungskosten aus ~/.claude/projects/ liest und bei Überschreitung von 10 USD die Sitzung anhält, verhindert Tokenocalypse-Szenarien. Der Hook feuert, bevor der API-Aufruf Ihre Maschine verlässt – einen sanfteren Eingriffspunkt gibt es nicht.

verhindert Eskalationharte Obergrenze · mittel
23

max_turns auf allen Sub-Agenten setzen

Ein Sub-Agent ohne max_turns-Limit kann unbegrenzt laufen. Setzen Sie max_turns: 10 auf den meisten Agenten und max_turns: 5 auf Agenten mit einfachen, klar abgegrenzten Aufgaben. Ein außer Kontrolle geratener Sub-Agent mit 50 Runden kostet bei gleicher Aufgabe das Fünf- bis Zehnfache eines sauber begrenzten.

-60%Eskalationsschutz · gering
24

Bei Kostenausreißern – nicht nur bei Monatssummen – protokollieren und alarmieren

Monatliche Abrechnungs-Alarme erfassen Tokenocalypse-Ereignisse erst nach dem Schaden. Tageskosten-Alarme (E-Mail oder Slack-Webhook, sobald die Tagesausgaben die zweifache Basislinie überschreiten) erfassen sie rechtzeitig zum Eingreifen. Die Anthropic-Konsole unterstützt tägliche Schwellenwert-Alarme. Aktivieren Sie sie.

FrühwarnungMonitoring · gering
25

Zombie-Sitzungen abräumen, bevor sie sich anhäufen

Eine offene, aber unbeaufsichtigte Claude-Code-Sitzung verursacht weiterhin Kosten, sobald ein Sub-Agent einen Werkzeugaufruf tätigt. Listen Sie aktive Sitzungen mit claude sessions list und beenden Sie alle, die Sie nicht aktiv nutzen. Auf Maschinen, die mehrere Entwickler teilen, sind Zombie-Sitzungen eine erhebliche und unsichtbare Kostenquelle.

variabelSitzungs-Hygiene · gering

Wo Sie anfangen sollten

Wenn Sie diese Woche nur fünf Punkte umsetzen, dann diese: 01 (Prompt-Caching aktivieren), 07 (Klassifikationsaufgaben auf Haiku umstellen), 12 (regelmäßig /compact ausführen), 22 (Budget-Limits per Hook setzen) und 23 (max_turns auf jedem Agenten setzen). Diese fünf adressieren die wirkungsvollsten Kategorien und kosten zusammen weniger als zwei Stunden Aufwand.

Die übrigen 20 Punkte sind eine lohnende Aufgabe für die nächsten Wochen. Führen Sie ccusage total vor und nach jeder Kategorie aus, um den tatsächlichen Effekt auf Ihren Workload zu messen. Die Zahlen in diesem Beitrag sind Schätzungen; Ihre tatsächliche Ersparnis hängt von Ihren konkreten Nutzungsmustern ab.

Septim Drills: 47 Übungen, einschließlich Hook-Konfiguration und Kosten-Schutzgeländer

Punkt 22 und 23 (PreToolUse-Hooks und max_turns) erfordern das Schreiben von Hook-Skripten und YAML-Agent-Konfigurationen. Septim Drills enthält 47 strukturierte Übungen, die beides anhand realer Beispiele aus produktiven Claude-Code-Workflows durchgehen. Einmal kaufen.

Septim Drills holen — 29 USD →