تحسين تكلفة Claude Code: قائمة من 25 بنداً
فوترة Claude Code شفّافة تماماً: كل توكن يكلّف شيئاً، وتظهر التكلفة فوراً في لوحة Anthropic. هذه الشفافية مفيدة، لأنّها تجعل التحسين ملموساً؛ كل بند في هذه القائمة له أثر قابل للقياس على فاتورتك. لا يوجد كلام «قد يساعد» في حساب التوكنات.
هذه البنود الخمسة والعشرون مرتّبة بحسب الفئة، والبنود الأعلى أثراً ترد أوّلاً داخل كل فئة. تقديرات التوفير مبنيّة على أنماط استعمال حقيقية لا حدود نظرية. البنود الموسومة بـ«تعقيد منخفض» يمكن إنجازها في أقل من ساعة، أمّا الموسومة بـ«تعقيد عالٍ» فتستلزم تغييرات معماريّة.
كيف تستخدم هذه القائمة
راجع كل فئة في ضوء إعدادك الراهن. كل بند لم تطبّقه هو نقود تنزلق من الطاولة. إجمالي التوفير الممكن يختلف بحسب طبيعة العمل، لكنّ المطوّر المتوسّط الذي يستعمل Claude Code بكثافة معتدلة (3 إلى 5 ساعات يوميّاً) يستطيع خفض إنفاقه الشهري على API بنسبة تتراوح بين 40٪ و60٪ بتطبيق البنود الخمسة والعشرين كلّها.
فعّل cache_control على system prompt لديك
إن كنت تستعمل API مباشرةً، فلفّ system prompt — أو أي كتلة سياق كبيرة تتكرّر بين الطلبات — داخل بند cache_control: {"type": "ephemeral"}. التوكنات المخزَّنة تُحتسَب بـ 10٪ من سعر توكنات الإدخال غير المخزَّنة. بـ 10,000 توكن في system prompt تتكرّر 50 مرّة يوميّاً، توفّر 4.5 مليون توكن في اليوم.
system=[{
"type": "text",
"text": your_large_system_prompt,
"cache_control": {"type": "ephemeral"}
}]
خزّن المستندات مؤقّتاً قبل استعلامها مرّات متعدّدة
إن كنت تشغّل عدّة برومبتات على المستند نفسه — قطعة من قاعدة شيفرة، أو مواصفة، أو ملف PDF — فخزّن المستند في الطلب الأوّل. كل طلب لاحق يصيب التخزين يدفع 10٪ فقط مقابل المستند. نقطة التعادل عند طلبَين، ويبدأ المردود من الطلب الثالث فصاعداً.
راقب نسبة إصابة التخزين من ترويسات الاستجابة
اقرأ usage.cache_read_input_tokens من كل استجابة API. إن كانت نسبة الإصابة دون 60٪ في تطبيق ثقيل الـ system prompt، فالتخزين ينتهي قبل أن تستفيد منه. مدّة التخزين الافتراضي خمس دقائق، فتأكّد من وصول طلباتك ضمن هذه النافذة.
أبقِ المحتوى المخزَّن في صدر البرومبت
التخزين مفهرَس على المحتوى وموقعه. إن وضعت محتوى متغيّراً — رسالة المستخدم، التاريخ الحالي — قبل system prompt المخزَّن، فلن يصيب التخزين. ضع الكتلة الثابتة الكبيرة أوّلاً، والمحتوى المتغيّر أخيراً.
استعمل التخزين الممدَّد (ساعة) للسياقات الكبيرة المستقرّة
التخزين العابر الافتراضي يدوم خمس دقائق. إن كان سياقك كبيراً — كفهرس قاعدة شيفرة كاملة — ويتبدّل نادراً، فإنّ Anthropic تتيح تخزيناً ممدَّداً بمدّة ساعة، بكلفة كتابة أعلى قليلاً وكلفة قراءة أدنى لكل ساعة. خيار يستحقّ التشغيل للسياقات التي تتجاوز 100K توكن.
خزّن محتوى CLAUDE.md في جلسات Claude Code الطويلة
في جلسات Claude Code، يُلصَق محتوى CLAUDE.md في صدر كل رسالة. إن كان CLAUDE.md لديك بحجم 5,000 توكن، فأنت تحتسب 5,000 توكن لكل دور. أبقِ CLAUDE.md مقتصداً، وفكّر في فصل السياق الخاص بالمشروع إلى ملف منفصل يُستدعى عند الحاجة بدل أن يُحقَن في كل دور.
استعمل Haiku لمهام التصنيف والتوجيه
Haiku 3.5 يكلّف $0.25 لكل مليون توكن إدخال مقارنةً بـ $3 لـ Sonnet 4.5. للمهام التي جوهرها مطابقة أنماط — صنّف هذا الخطأ، رتّب هذه المسألة، هل يطابق هذا النصّ هذه المعايير — يقدّم Haiku جودة مكافئة بسعر أقل اثنتي عشرة مرّة. دقّق في وكلائك الفرعيّين؛ كل وكيل عدد أدواره الأقصى ثلاثة ومخرجاته بصيغة تصنيفية يجب أن يعمل على Haiku.
لا تستعمل Sonnet إلا حين يهمّ الاستدلال
Sonnet يستحقّ سعره في: مراجعة الشيفرة، والتدقيق الأمني، والاستدلال متعدّد الخطوات، وكل عمل يقتضي توليف معلومات متعارضة. لا يستحقّ سعره في: توليد التوثيق، وكتابة سجلّ التغييرات، واستخراج بيانات منظَّمة، وأي عمل ذي صيغة محسومة.
اضبط max_tokens بتقتير لكل وكيل
تحتسب API التوكنات المُولَّدة لا المطلوبة. لكنّ تعيين max_tokens مرتفع دون حاجة قد يدفع Claude إلى توليد أكثر من اللازم. للمخرجات المنظَّمة من JSON وYAML والجداول، فإنّ max_tokens منخفضاً يجبر Claude على الاختصار. ادرس طول مخرجات كل وكيل فعلياً وثبّت max_tokens عند 120٪ من الطول الموافق للمئوي 95.
استعمل streaming للمخرجات الطويلة، وألغِ مبكّراً عند الحاجة
إن كنت تستعمل streaming، فبإمكانك إلغاء التدفّق متى استقبلت ما يكفي. على API، تُحتسَب الاستجابات الجزئية بحسب التوكنات المولَّدة فعلاً، لا بكامل max_tokens. للتطبيقات التي لا تحتاج إلا للجزء الأوّل من مخرَج طويل، يخفّض streaming مع الإلغاء المبكّر تكلفة المخرَج بنسبة تتراوح بين 40٪ و70٪.
تجنّب Opus في المهام التي يعالجها Sonnet بالكفاءة نفسها
Opus يكلّف $15 لكل مليون توكن إدخال، أي خمسة أضعاف Sonnet. الفارق في الجودة بين Opus وSonnet ملحوظ في الأعمال الإبداعية المفتوحة وفي الاستدلال المتعدّد الخطوات. أمّا في مهام الشيفرة والمخرجات المنظَّمة وأكثر تدفقات عمل المطوّرين، فإنّ Sonnet يجاري Opus بخُمس السعر. اعقد قياساً قبل أن تجعل Opus خيارك الافتراضي.
شغّل /compact قبل أن تتجاوز الجلسة الطويلة 50K توكن
أمر /compact داخل Claude Code يلخّص سياق الجلسة ويستبدله بنسخة مضغوطة. جلسة بحجم 100K توكن تتحوّل إلى موجَز بحجم 5K. خسارة الجودة في استمرارية المهمّة محدودة، أمّا توفير التكلفة فضخم. شغّله كل ساعتين على الجلسات النشطة.
استعمل Grep وRead بدل أن تترك Claude يستكشف قاعدة الشيفرة
حين يستكشف Claude قاعدة شيفرة دون توجيه، يقرأ ملفات كثيرة لفهم السياق. توجيهه إلى الملفات ذات الصلة أوّلاً — «اقرأ app/api/users.ts ونموذج User» — يخفض السياق بمقدار رتبة. استعمل Grep للعثور على الملفات قبل أن تطلب من Claude قراءتها.
أبقِ CLAUDE.md تحت 300 سطر
كل سطر في CLAUDE.md هو توكن يُلصَق في صدر كل رسالة داخل جلسة Claude Code. CLAUDE.md بحجم 3,000 سطر يضيف نحو 4,500 توكن لكل دور؛ بحجم 300 سطر يضيف نحو 450 توكناً. مقال مشكلة CLAUDE.md المؤلَّف من 3,000 سطر يشرح كيف تبنيه ليُنفق توكنات قليلة دون فقد التغطية.
اقصر صلاحيّات أدوات الوكلاء الفرعيّين على ما يحتاجونه فعلاً
الوكيل الفرعي الذي يملك كل الأدوات سيستعملها كلّها. الوكيل الذي لا يملك سوى [Read, Grep] لا يستطيع إطلاق Bash وتحميل ملف سجلّ بحجم 10MB في السياق. تقييد الأدوات حاجز تكلفة وضابط أمني في وقت واحد.
مرّر فروقات diff لا الملفات الكاملة إلى وكلاء المراجعة
عند تشغيل وكيل مراجعة شيفرة، مرّر مخرَج git diff HEAD~1 بدل محتوى الملف الكامل. ملف بحجم 2,000 سطر تغيّر فيه 40 سطراً يكلّف 2,000 توكن إذا مرّرت الملف، و200 فقط إذا مرّرت diff. في تدفّقات المراجعة، يكفي diff في الغالبية العظمى من الحالات.
استعمل Batch API لكل عمل لا يستلزم وقتاً حقيقيّاً
Anthropic Batch API يكلّف نصف سعر API في الزمن الحقيقي لكل توكن. يقبل حتى 10,000 طلب لكل دفعة، وينجزها خلال 24 ساعة. إن لم يستلزم استخدامك ردّاً في أقل من 60 ثانية، فالخيار الصحيح هو Batch API. تحليل المستندات، وتوليد الاختبارات، وكتابة سجلّ التغييرات، كلّها مؤهّلة للتشغيل عبر Batch.
أزل التكرار بين الطلبات قبل إرسالها إلى API
إن كان احتمال أن يرسل تطبيقك البرومبت نفسه مرّتين قائماً — استعلام مستخدم متطابق، أو تحليل مستند نفسه — فاحسب بصمة محليّة قبل استدعاء API. بصمة SHA-256 من (النموذج + system_prompt + user_message) تكشف التكرارات. خزّن الاستجابة بمفتاح البصمة. نسبة تكرار 5٪ في تطبيق عالي الحجم توفّر مبلغاً ملموساً عبر شهر.
اجمع الطلبات المتشابهة في برومبت متعدّد الأجزاء
إن احتجت إلى إجراء العملية نفسها على 20 مستنداً — تلخيص أو تصنيف أو استخراج — فإنّ طلباً واحداً متعدّد المستندات يكلّف غالباً أقل من 20 طلباً منفرداً، لأنّ system prompt يُحتسَب مرّة واحدة. اختبر هذا في حساب التوكنات الفعلي لديك، فالدفعات الكبيرة جدّاً قد تتجاوز سقف السياق وتفرض التقسيم على أي حال.
طبّق دمج الطلبات المتطابقة المتزامنة
في التطبيقات عالية الحركة، قد يطلق عدّة مستخدمين الاستدعاء نفسه إلى API في الوقت ذاته — تقرير واحد، تحليل واحد. الدمج: حين يكون الطلب قيد التنفيذ، تنتظر الطلبات المتطابقة اللاحقة الاستجابة الأولى وتشاركها. التوفير يتناسب مع أنماط ذروة حركتك.
جدوِل مهام Batch في ساعات الذروة المنخفضة لأولوية الإنجاز
زمن معالجة Batch API يتفاوت مع حِمل Anthropic. إرسال الدفعات في ساعات الحركة المنخفضة — بين الثانية والثامنة بتوقيت UTC — يعطيك إنجازاً أسرع دون أي تكلفة إضافية. للدفعات ذات نافذة 24 ساعة، إرسالها منتصف الليل واستلام النتائج صباحاً نمط موثوق.
اضبط حدود ميزانية لكل جلسة ولكل يوم عبر PreToolUse hooks
PreToolUse hook يعمل قبل كل استدعاء أداة. ثلاثون سطراً من hook تقرأ التكلفة المتراكمة لجلستك من ~/.claude/projects/ وتوقف العمل إن تجاوزت $10 يقي من سيناريوهات «الـ Tokenocalypse». ينفّذ hook قبل أن يغادر استدعاء API جهازك، فلا توجد نقطة فرض أنعم منها.
اضبط max_turns على كل وكيل فرعي
الوكيل الفرعي بلا حدّ max_turns يستطيع العمل بلا نهاية. ضع max_turns: 10 على معظم الوكلاء، وmax_turns: 5 على الوكلاء ذوي المهام البسيطة المحدّدة. وكيل فرعي منفلت يبلغ 50 دوراً يكلّفك خمسة إلى عشرة أضعاف المهمّة نفسها مع وكيل مضبوط.
سجّل التنبيهات على الانحرافات اليومية لا على الإجمالي الشهري فقط
تنبيهات الفوترة الشهرية تكتشف أحداث «الـ Tokenocalypse» بعد وقوع الضرر. التنبيهات اليومية — بريد أو Slack webhook حين يتجاوز الإنفاق اليومي ضِعف الخط الأساسي — تكتشفها في وقت يسمح بالتدخّل. لوحة Anthropic تدعم عتبات إنفاق يومية. اضبطها.
أنهِ الجلسات الزومبي قبل أن تتراكم
جلسة Claude Code مفتوحة بلا متابعة تظلّ تحتسب الفواتير حين يستدعي وكيل فرعي أداةً ما. تفقّد الجلسات النشطة بـ claude sessions list وأنهِ ما لا تستعمله. على جهاز يتشاركه عدّة مطوّرين، الجلسات الزومبي مصدر تكلفة كبير وغير مرئي.
من أين تبدأ
إن لم تكن ستنجز سوى خمسة بنود هذا الأسبوع، فلتكن: 01 (تفعيل التخزين المؤقّت للبرومبتات)، و07 (تحويل مهام التصنيف إلى Haiku)، و12 (تشغيل /compact بانتظام)، و22 (ضبط hooks بحدود ميزانية)، و23 (ضبط max_turns لكل وكيل). هذه الخمسة تعالج أعلى الفئات أثراً، وتطبيقها مجتمعةً يستغرق أقل من ساعتين.
أمّا البنود العشرون الباقية، فيستحقّ المرور بها على مدى الشهر التالي. شغّل ccusage total قبل وبعد كل فئة لقياس الأثر الفعلي على عبء عملك. الأرقام في هذه المقالة تقديرات؛ توفيرك الفعلي رهن أنماط استعمالك تحديداً.
Septim Drills: 47 تمريناً تشمل إعداد hooks وحواجز التكلفة
البندان 22 و23 أعلاه — PreToolUse hooks وmax_turns — يستلزمان كتابة hook scripts وملفات YAML لإعداد الوكلاء. تضمّ Septim Drills سبعة وأربعين تمريناً منظَّماً يمرّ بهما خطوة خطوة، مع أمثلة حقيقية من تدفّقات إنتاجية لـ Claude Code. ادفع مرّة واحدة.