Réduire les coûts de Claude Code, sans changer de modèle

Comment réduire les coûts de Claude Code sans passer à un modèle plus faible ?

Vous réduisez les coûts de Claude Code en supprimant les tokens dont le modèle n'avait jamais eu besoin au départ, et non en rétrogradant le modèle qui les lit. Le réflexe, quand la facture pique, est de remplacer Opus 4.8 par Sonnet ou Haiku et d'accepter du code de moins bonne qualité. C'est le mauvais levier. La facture est dominée par la quantité de contexte que vous faites passer dans le modèle à chaque tour, et la majeure partie de ce contexte est du bruit : des fichiers entiers lus pour n'utiliser qu'une seule fonction, des logs de tests bruts, des manifestes MCP réémis à chaque étape. Coupez le bruit et vous conservez le raisonnement d'Opus à une fraction du coût. Je construis des outils de tokens pour gagner ma vie, alors je vais être direct sur l'arbitrage que la plupart des gens ne voient pas. Rétrograder le modèle est une coupe de qualité que vous ressentez à chaque tâche. Couper les tokens gaspillés est une coupe de coût que vous ne ressentez pas du tout — mêmes prompts, même modèle, même résultat, facture plus petite. L'une de ces options est de l'argent gratuit, et les gens continuent de choisir l'autre. Ceci est le pendant axé coûts de Comment réduire l'usage de tokens de Claude Code. Cet article-là couvre la mécanique ; celui-ci parle d'argent : où partent réellement les dollars, et pourquoi le choix du modèle est le dernier bouton que vous devriez toucher, pas le premier.

Pourquoi rétrograder le modèle rapporte-t-il moins que vous ne le pensez ?

Rétrograder fait économiser sur le tarif par token mais ne change rien au nombre de tokens — et c'est le nombre que vous pouvez réduire de 50 à 90 % sans perte de qualité. Voici les tarifs publiés par Anthropic, par million de tokens (MTok) :

Modèle	Input / MTok	Output / MTok
Claude Opus 4.8	$5	$25
Claude Sonnet 5	$2	$10
Claude Haiku 4.5	$1	$5

(Pour référence, GPT-5.5 se situe à $5 en input / $30 en output par MTok — voir Tarifs des tokens d'API LLM pour le tableau plus large.) Passer d'Opus à Sonnet fait baisser le tarif d'input de $5 à $3. C'est réel, mais modeste, et vous le payez en profondeur de raisonnement sur les refactos épineux, c'est-à-dire exactement quand vous voulez le modèle le plus fort. Pendant ce temps, le nombre de tokens est l'endroit où se cache le levier, à cause d'un fait architectural : à chaque étape d'une boucle agentique, Claude Code relit l'intégralité du transcript. Un fichier surdimensionné lu au tour 2 est refacturé aux tours 3 à 20. Un fichier de 6 000 tokens lu et traîné sur 15 tours n'est pas 6 000 tokens — c'est plus proche de 90 000 input tokens. Élaguer cette seule lecture bat n'importe quel changement de tarif que vous pourriez faire. Il y a un deuxième multiplicateur que la plupart des discussions sur les coûts ignorent : le prompt caching. Les lectures d'input en cache sont facturées à environ 10 % du tarif d'input normal — donc sur Opus, le contexte en cache revient à environ $0.50/MTok au lieu de $5. C'est une réduction de 90 % sur la partie stable de votre contexte. Mais le caching n'aide que la partie du prompt qui ne change pas. Si votre transcript est rempli de dumps de fichiers ponctuels qui ne se répètent jamais, il n'y a rien de stable à mettre en cache. Couper le bruit et le caching se renforcent mutuellement : moins de déchets dans la fenêtre signifie qu'une plus grande part de ce qui reste est cacheable.

Où part réellement la facture de Claude Code ?

La facture est dominée par le contexte relu, pas par les tokens de la réponse que vous vouliez réellement. Quatre sources font l'essentiel des dégâts : Les lectures gloutonnes de fichiers entiers. Demandez à Claude Code de « comprendre le module d'authentification » et il lit tout le fichier. Un fichier TypeScript de 500 lignes représente environ 5 000 à 7 000 tokens, et il en lira une douzaine avant d'écrire une seule ligne. Chacun est refacturé à chaque tour suivant. La sortie brute des commandes. Un npm test qui échoue peut déverser 15 000 tokens de traces de pile et de coches vertes dans le transcript. Le modèle en avait besoin d'environ 50 tokens — le nom du test qui échoue et l'assertion cassée. Le reste est du fret, et il est relu à chaque tour suivant lui aussi. Le manifeste MCP. Chaque serveur MCP connecté annonce son schéma de tools complet à chaque tour, qu'il soit utilisé ou non. Cinq serveurs à dix tools chacun, c'est une taxe fixe sur toute la session. Voir Meilleurs serveurs MCP pour Claude Code pour savoir lesquels valent leur place. Les transcripts sans limite. Une session qui erre à travers plusieurs tâches construit un transcript qui peut coûter plus cher à relire que le travail d'origine n'a coûté à produire. Remarquez qu'aucun de ces postes ne devient moins cher quand vous rétrogradez le modèle. Ils deviennent moins chers quand vous arrêtez de les envoyer.

Un exemple chiffré

Mettons des chiffres dessus, parce que « couper le bruit » est facile à approuver d'un hochement de tête et difficile à ressentir. Disons qu'une tâche de fonctionnalité unique tourne sur 18 tours avec Opus 4.8. En chemin, l'agent lit huit fichiers de 6 000 tokens en moyenne (48 000 tokens de lectures) et lance une poignée de commandes de test et de build qui déversent 30 000 tokens de plus de sortie brute. Les deux ensembles sont relus aux tours qui les suivent — disons une moyenne de 10 tours survivants de refacturation chacun. Cela fait environ 780 000 input tokens de lectures-et-logs traînés à travers la session. Au tarif d'Opus de $5/MTok, le gaspillage seul représente environ $3.90 sur une seule tâche — et c'est avant le raisonnement et l'output réels. Appliquons maintenant les coupes : la semantic search ramène les huit lectures de fichiers entiers à des chunks ciblés (disons 8 000 tokens au lieu de 48 000), et l'output filtering ramène les 30 000 tokens de logs à peut-être 1 500 tokens de lignes d'erreur. Même modèle, même tâche, même réponse — l'ensemble refacturé se réduit d'un ordre de grandeur. Le tarif n'a jamais changé ; le nombre, si, et le nombre est ce que vous contrôlez. Faites ce calcul sur un mois de travail réel et l'écart entre « rétrogradé vers Haiku » et « gardé Opus, coupé le gaspillage » s'inverse : la seconde option est généralement à la fois moins chère et meilleure.

Que devrais-je couper en premier, et dans quel ordre ?

Coupez le gaspillage de récupération en premier, le bruit de sortie en deuxième, la surcharge MCP en troisième — cet ordre rapporte le plus de dollars par minute d'effort pour une session Claude Code typique.

Faites-le chercher, pas lire. Remplacez « lis src/auth/login.ts » par « trouve la fonction qui valide le JWT et montre sa signature ». La semantic code search trouve le code par le sens, donc l'agent tire les trois chunks pertinents au lieu de chaque fichier du répertoire. C'est généralement une coupe de 5 à 10x sur les tokens de récupération, et la récupération est le plus gros poste de la plupart des sessions.
Filtrez la sortie avant qu'elle n'atterrisse. Préférez git status --porcelain à git status nu, tsc --noEmit 2>&1 | grep error au log complet de vérification de types, des flags de test concis au dump complet du runner. Sur les sessions riches en échecs, cela seul peut être une coupe d'un ordre de grandeur.
Élaguez le MCP. Déconnectez les serveurs que vous n'utilisez pas cette session. Le chargement paresseux des schémas de tools — en ne les envoyant que lorsqu'un tool est réellement invoqué — supprime entièrement la taxe de manifeste par tour.
Réinitialisez le transcript entre les tâches. Quand vous changez de tâche, repartez de zéro plutôt que de traîner un historique de 80k tokens sans rapport dans le nouveau travail.

Faites les trois premiers et le modèle que vous faites tourner par-dessus n'a presque plus d'importance pour la facture — ce qui est tout l'enjeu. Vous gardez Opus.

Où Tokenade s'inscrit-il ?

Tokenade automatise exactement les coupes ci-dessus pour que vous n'ayez pas à surveiller vos propres prompts. Il s'installe dans Claude Code (et Cursor, Codex, Copilot, Windsurf et les autres) et se place entre l'agent et vos tools : il sert la semantic code search au lieu de lectures de fichiers entiers, applique de l'output filtering aux commandes bruyantes, compresse les gros fichiers en skeletons, et charge paresseusement les schémas de tools MCP pour que la taxe de manifeste disparaisse. Un dashboard d'économies montre les tokens et les dollars qu'il a réellement économisés, donc ce n'est pas une affirmation reposant sur la foi — vous pouvez regarder la courbe descendre. C'est source-available sous licence MIT, ce qui compte pour moi : un outil qui se place dans votre pipeline de contexte ne devrait pas être une boîte noire que vous ne pouvez pas auditer. Gratuit jusqu'à environ 10M tokens/mois ; Pro est à 24,90 $/mois hors taxes aux États-Unis (19,90 €/mois TTC en France), postes illimités. Si vous pesez les options, Meilleurs optimiseurs de tokens pour Claude Code compare le terrain, Tokenade inclus. L'argument honnête : gardez le modèle fort, installez la chose qui l'empêche d'être nourri de déchets, et laissez le dashboard prouver les économies. Cela bat de dégrader chaque tâche pour gratter sur le tarif.

Ce qui tourne mal (anti-patterns)

L'erreur la plus courante est de traiter le choix du modèle comme le cadran du coût alors que c'est en réalité le cadran de la qualité. Méfiez-vous de ceci :

« On est passés à Haiku pour économiser de l'argent. » Vous êtes aussi passés à de moins bons plans sur les tâches difficiles, et vous avez laissé les 50 à 90 % de gaspillage de tokens entièrement intacts. Coupez le gaspillage d'abord ; ne rétrogradez que si la facture est encore trop élevée après, et seulement sur les tâches où le modèle plus faible suffit réellement.
Optimiser les output tokens. L'output est le petit nombre ; sur la plupart des sessions agentiques, l'input l'écrase à cause des relectures. Chasser des réponses plus courtes tout en ignorant un contexte gonflé, c'est optimiser l'erreur d'arrondi.
Supposer que le caching vous sauvera quoi qu'il arrive. Le caching ne réduit que le contexte stable. Un transcript plein de dumps ponctuels a peu à mettre en cache. Nettoyez le contexte et la réduction du cache se compose.
Élaguer si fort que l'agent devient aveugle. Le but est de retirer le bruit, pas le signal. Si le modèle commence à réclamer des fichiers dont il a clairement besoin, vous avez trop coupé la récupération — desserrez. Bien fait, vous coupez le fret, et la qualité est intacte.

À voir aussi :

Comment réduire l'usage de tokens de Claude Code
L'outil IA que personne chez Uber ne pouvait arrêter — l'adoption qui dépasse le budget.
Pourquoi Microsoft a retiré Claude Code à ses propres développeurs — le même problème, réglé brutalement.
Meilleurs optimiseurs de tokens pour Claude Code
Meilleurs serveurs MCP pour Claude Code
Tarifs des tokens d'API LLM