· контроль расходов · чек-лист · апрель 2026 ·

Оптимизация расходов Claude Code: чек-лист из 25 пунктов

// РАЗДЕЛ Контроль расходов// ДАТА 28 АПР 2026// СЛАГ /blog/claude-code-cost-optimization-checklist-2026.htmlцитировать →

Опубликовано 28 апреля 2026 · Septim Labs · 15 минут чтения

Биллинг Claude Code полностью прозрачен — каждый токен чего-то стоит, и стоимость сразу появляется в Вашей консоли Anthropic. Эта прозрачность полезна, потому что делает оптимизацию измеримой: каждый пункт чек-листа имеет численный эффект на счёт. В токенной математике не бывает «может, поможет».

Эти 25 пунктов сгруппированы по категориям. Внутри каждой категории сначала идут пункты с наибольшим эффектом. Оценки экономии основаны на реальных паттернах использования, а не на теоретических максимумах. Пункты с пометкой «Низкая сложность» внедряются меньше чем за час. Пункты «Высокая сложность» требуют архитектурных изменений.

Как пользоваться чек-листом

Пройдитесь по каждой категории и сравните со своей текущей конфигурацией. Каждый невнедрённый пункт — это деньги, оставленные на столе. Совокупная экономия зависит от нагрузки, но среднестатистический разработчик, использующий Claude Code умеренно интенсивно (3–5 часов в день), способен сократить ежемесячные расходы на API на 40–60%, выполнив все 25 пунктов.

// 1. Кэширование промптов · 6 пунктов

Включите cache_control в системном промпте

При прямой работе с API оберните системный промпт (или любой крупный блок контекста, повторяющийся между запросами) в cache_control: {"type": "ephemeral"}. Кэшированные токены стоят 10% от обычных входных. На системном промпте в 10 000 токенов, повторяемом 50 раз в день, это экономит 4,5 миллиона токенов в день.

system=[{
  "type": "text",
  "text": your_large_system_prompt,
  "cache_control": {"type": "ephemeral"}
}]

-55%входные токены · низкая сложность

Кэшируйте документы перед серией запросов к ним

Если Вы запускаете несколько промптов по одному и тому же документу (раздел кодовой базы, спецификация, PDF) — закэшируйте документ при первом запросе. Каждый последующий запрос, попадающий в кэш, платит за документ 10%. Точка безубыточности — 2 запроса; начиная с 3 запросов экономия очевидна.

-45%повторные документы · низкая

Отслеживайте процент попаданий в кэш по заголовкам ответа

Читайте usage.cache_read_input_tokens в каждом ответе API. Если процент попаданий в кэш ниже 60% для приложения с тяжёлым системным промптом — кэш истекает раньше, чем Вы успеваете им воспользоваться. Срок жизни эфемерного кэша — 5 минут; убедитесь, что Ваши запросы укладываются в это окно.

диагностикапроцент попаданий · низкая

Держите кэшированный контент в начале промпта

Кэш ключуется по содержимому и его позиции. Если Вы поставите динамический контент (сообщение пользователя, текущую дату) перед кэшированным системным промптом — попадания не будет. Сначала статичный крупный блок. В конце — динамический контент.

включает кэшструктура промпта · низкая

Используйте расширенный кэш (TTL 1 час) для крупных стабильных контекстов

Стандартный эфемерный кэш живёт 5 минут. Если контекст крупный (полный индекс кодовой базы) и редко меняется — Anthropic предлагает расширенное кэширование с TTL 1 час: чуть выше стоимость записи в кэш, но ниже почасовая стоимость чтения. Имеет смысл для контекстов больше 100K токенов.

-30%крупный контекст · средняя

Кэшируйте содержимое CLAUDE.md в длинных сессиях Claude Code

В сессиях Claude Code содержимое CLAUDE.md добавляется к каждому сообщению. Если CLAUDE.md весит 5 000 токенов — это 5 000 токенов на каждый ход. Держите CLAUDE.md компактным и подумайте о том, чтобы вынести специфичный для проекта контекст в отдельный файл, который подгружается по необходимости, а не вшивается в каждый ход.

-20%токены сессии · низкая

// 2. Выбор модели · 5 пунктов

Используйте Haiku для классификации и маршрутизации

Haiku 3.5 стоит $0.25 за миллион входных токенов против $3 у Sonnet 4.5. Для задач, по сути сводящихся к сопоставлению с шаблоном (классифицировать ошибку, отнести проблему к категории, проверить совпадение текста с критериями) — Haiku даёт сопоставимое качество в двенадцать раз дешевле. Проверьте своих субагентов: всё, у чего лимит в 3 хода и классификационный вывод, должно работать на Haiku.

-92%за токен · смена модели

Используйте Sonnet только там, где нужны рассуждения

Sonnet окупается на: ревью кода, аудите безопасности, многошаговых рассуждениях, всём, что требует синтеза противоречивой информации. Не окупается на: генерации документации, написании чейнджлога, извлечении структурированных данных или любой задаче с детерминированным форматом.

-60%смешанная нагрузка · аудит

Ставьте max_tokens консервативно для каждого агента

API тарифицирует сгенерированные токены, а не запрошенные. Но завышенный max_tokens, когда он не нужен, означает, что Claude может сгенерировать больше необходимого. Для структурированных выводов (JSON, YAML, таблицы) низкий max_tokens вдобавок заставляет Claude быть лаконичнее. Замерьте реальную длину вывода каждого агента и поставьте max_tokens на уровне 120% от наблюдаемой p95.

-15%выходные токены · средняя

Используйте стриминг для длинных ответов и обрывайте раньше при необходимости

При стриминге можно прервать поток, как только получено достаточно. В API частичные стриминговые ответы тарифицируются по сгенерированным токенам, а не по полному max_tokens. Для приложений, в которых часто нужна только первая часть длинного ответа, стриминг с ранним обрывом сокращает расходы на выходные токены на 40–70%.

-40%выходные токены · высокая

Не используйте Opus там, где Sonnet справляется не хуже

Opus стоит $15 за миллион входных токенов — в 5 раз дороже Sonnet. Разница в качестве между Opus и Sonnet существенна для открытой творческой работы и сложных многошаговых рассуждений. Для задач по коду, структурированных выводов и большинства разработческих сценариев Sonnet даёт качество, сопоставимое с Opus, в пять раз дешевле. Прежде чем по умолчанию ставить Opus — проведите бенчмарк.

-80%vs Opus · сначала бенчмарк

// 3. Управление контекстом · 5 пунктов

Запускайте /compact до того, как длинные сессии перевалят за 50K токенов

Команда /compact в Claude Code сворачивает контекст сессии и заменяет его сжатой версией. Сессия на 100K токенов превращается в краткое содержание на 5K. Потеря качества для непрерывности задачи минимальна; экономия — существенна. Прогоняйте каждые 2 часа активной работы.

-80%токены контекста · низкая

Используйте Grep и Read вместо того, чтобы пускать Claude по кодовой базе самостоятельно

Когда Claude обходит кодовую базу без направления, он читает множество файлов ради контекста. Указание на нужные файлы заранее («прочитай app/api/users.ts и модель User») сокращает контекст на порядок. Используйте Grep, чтобы сначала найти нужные файлы, и только потом просите Claude их читать.

-50%задачи разведки · средняя

Держите CLAUDE.md в пределах 300 строк

Каждая строка CLAUDE.md — это токен, добавляемый к каждому сообщению в сессии Claude Code. CLAUDE.md на 3 000 строк прибавляет ~4 500 токенов к каждому ходу. На 300 строк — ~450 токенов. Материал о проблеме 3000-строчного CLAUDE.md рассказывает, как структурировать файл с минимальным расходом токенов без потери покрытия.

-30%токены сессии · средняя

Ограничивайте набор инструментов субагентов до необходимого

Субагент с доступом ко всем инструментам ими и воспользуется. Субагент с доступом только к [Read, Grep] не сможет запустить bash-процесс и загрузить в контекст лог на 10 МБ. Ограничение инструментов — одновременно и контроль расходов, и контроль безопасности.

-25%за агента · низкая

Передавайте ревьюющим агентам диффы, а не файлы целиком

При запуске агента ревью кода передавайте вывод git diff HEAD~1, а не содержимое файлов целиком. Файл на 2 000 строк с 40 изменёнными строками стоит 2 000 токенов, если передаётся целиком, и 200 токенов — если передаётся дифф. Для ревью этого почти всегда достаточно.

-90%задачи ревью · средняя

// 4. Пакетные и асинхронные паттерны · 5 пунктов

Используйте Batch API для всего, что не критично к скорости

Batch API от Anthropic стоит на 50% меньше за токен, чем real-time. Принимает до 10 000 запросов за пакет, обрабатывает в течение 24 часов. Если ответ не нужен быстрее 60 секунд — Batch API правильный выбор. Анализ документов, генерация тестов, написание чейнджлогов — всё подходит под пакетный режим.

-50%все токены · средняя

Дедуплицируйте запросы перед отправкой в API

Если Ваше приложение может отправить один и тот же промпт дважды (одинаковый запрос пользователя, тот же анализ документа) — сравнивайте запрос с локальным хэшем перед обращением к API. Хэш SHA-256 от (модель + системный промпт + сообщение пользователя) идентифицирует дубликаты. Кэшируйте ответ по этому хэшу. Даже 5% дублей в нагруженном приложении дают за месяц ощутимую экономию.

переменнодоля дублей · средняя

Объединяйте однотипные запросы в один многосоставный промпт

Если над 20 документами нужно выполнить одну и ту же операцию (резюмировать, классифицировать, извлечь данные) — один многосоставный запрос часто стоит дешевле 20 одиночных, потому что системный промпт оплачивается один раз. Проверяйте на своей токенной математике: очень крупные пакеты могут превышать лимит контекста и всё равно требовать разбиения.

-25%накладные пакета · средняя

Реализуйте слияние одинаковых конкурентных запросов

В нагруженных приложениях несколько пользователей могут одновременно инициировать один и тот же API-вызов (один отчёт, один анализ). Слияние: пока запрос в полёте, последующие идентичные ждут первого ответа и разделяют его. Экономия пропорциональна паттернам пиковой нагрузки.

переменноконкурентный трафик · высокая

Запускайте пакетные задания в нерабочие часы

Время обработки в Batch API зависит от текущей нагрузки на Anthropic. Отправка пакетов в часы низкого трафика (UTC 02:00–08:00) обычно даёт более быструю обработку без дополнительной оплаты. Для пакетов с окном в 24 часа надёжный паттерн — отправка в полночь и получение результатов к утру.

быстреерасписание · низкая

// 5. Ограничители и лимиты · 4 пункта

Установите лимит расходов на сессию и день через хук PreToolUse

Хук PreToolUse запускается перед каждым вызовом инструмента. Хук на 30 строк, читающий накопленную стоимость сессии из ~/.claude/projects/ и останавливающий работу при превышении $10, предотвращает сценарии Токеналипсиса. Хук срабатывает до того, как API-вызов уйдёт с Вашей машины — мягче точки контроля просто не существует.

блокируетжёсткий потолок · средняя

Установите max_turns для всех субагентов

Субагент без ограничения max_turns может работать сколь угодно долго. Ставьте max_turns: 10 для большинства агентов и max_turns: 5 для агентов с простыми, ограниченными задачами. Сорвавшийся субагент на 50 ходов стоит в 5–10 раз дороже хорошо ограниченного на той же задаче.

-60%защита от срывов · низкая

Логируйте и алертите по аномалиям расходов, а не только по месячным итогам

Месячные оповещения по биллингу ловят Токеналипсис уже после ущерба. Ежедневные оповещения (письмо или Slack-вебхук при превышении дневной нормы в 2 раза от базового уровня) ловят его вовремя. Консоль Anthropic поддерживает оповещения по дневным порогам расходов. Включите их.

раннее предупреждениемониторинг · низкая

Закрывайте «зомби»-сессии до того, как они накопятся

Открытая, но забытая сессия Claude Code будет продолжать тарифицироваться, когда субагент совершит вызов инструмента. Проверяйте активные сессии командой claude sessions list и закрывайте те, которыми Вы не пользуетесь. На машине, разделяемой между разработчиками, зомби-сессии — значимый и невидимый источник расходов.

переменногигиена сессий · низкая

С чего начать

Если за эту неделю Вы готовы внедрить только пять пунктов — берите: 01 (включить кэширование промптов), 07 (перевести классификацию на Haiku), 12 (регулярно гонять /compact), 22 (поставить хуки лимитов расходов) и 23 (выставить max_turns для каждого агента). Эти пять закрывают категории с наибольшим эффектом и в сумме внедряются меньше чем за два часа.

Оставшиеся 20 пунктов стоит проработать в течение следующего месяца. Запускайте ccusage total до и после каждой категории, чтобы измерить реальный эффект на Вашей нагрузке. Цифры в этом материале — оценки; Ваша фактическая экономия зависит от конкретных паттернов использования.

Septim Drills: 47 упражнений, включая настройку хуков и ограничителей расходов

Пункты 22 и 23 выше (хуки PreToolUse и max_turns) требуют написания скриптов хуков и YAML-конфигов агентов. Septim Drills включает 47 структурированных упражнений, проводящих и через одно, и через другое, с реальными примерами из продакшен-сценариев Claude Code. Платите один раз.

Получить Septim Drills — $29 →