La facture de tokens de Claude Code se résume à une poignée de chiffres : combien de tokens une session consomme réellement, la répartition déséquilibrée entre ce qu'il lit et ce qu'il écrit, la remise que le caching vous offre sur le contexte répété, et le tarif par million de tokens du modèle qui le propulse. Cette page rassemble ces chiffres depuis des sources primaires pour que vous n'ayez pas à les reconstituer depuis un dashboard de facturation à 2 h du matin. Je conçois des outils de réduction de tokens pour gagner ma vie, donc je lis ces analyses avec un intérêt bien réel — et le titre auquel je reviens toujours est peu glamour : ce qui coûte cher, c'est ce que l'agent lit, pas ce qu'il écrit. Tous les chiffres sont datés de juin 2026 ; les versions de modèles et les tarifs évoluent vite, donc revérifiez à la source primaire avant de les citer dans un contrat.

Points clés

L'utilisation des tokens de Claude Code en un coup d'œil

•Une session agentique typique de 50 tours brûle environ 1 000 000 input tokens et 40 000 output tokens — un ratio de 25:1. [1]
•Les input tokens tirent ≈85 % du coût total de la session — l'agent relit tout son contexte à chaque tool call. [1]
•Uber a épuisé l'intégralité de son budget IA 2026 en quatre mois après que l'adoption de Claude Code a atteint 84 % parmi 5 000 ingénieurs, à 500–2 000 $ par utilisateur intensif et par mois. [2]
•Les cache read sur le prompt caching coûtent 10 % d'un input neuf chez Anthropic — une économie de 90 % sur le contexte répété. [3]
•Le contexte renvoyé représente ≈62 % de la facture dans les équipes en production auditées en 2026. [4]
•Sur Sonnet 5 (2 $/10 $ par MTok), cette session de 50 tours coûte environ 2,40 $ sans caching. [5]

Combien de tokens une session Claude Code consomme-t-elle ?

Une session d'agentic coding typique de 50 tours consomme environ 1 000 000 input tokens et 40 000 output tokens — un ratio input/output de 25:1. [1] Ce ratio est le fait le plus important sur l'économie de Claude Code, et il surprend presque tout le monde la première fois qu'il le découvre. Le mécanisme est simple une fois énoncé à voix haute. Claude Code est un agent : chaque tool call (lire un fichier, lancer un test, grep le dépôt) renvoie au modèle l'intégralité du contexte accumulé — system prompt, définitions d'outils, historique de la conversation, contenu des fichiers, sortie des commandes. Au tour 30 d'une session de débogage, l'agent relit 25 000 à 35 000 tokens d'historique à chaque requête. L'output qu'il écrit — un patch, un paragraphe d'explication — est minuscule en comparaison. [1] L'analyse 2026 de Vantage sur les coûts des développeurs en production situe un utilisateur d'agent à temps plein à 400–1 500 $ par mois, avec des pics extrêmes sur une seule journée dépassant 4 000 $. [1] Si votre facture mensuelle ressemble à une ligne de salaire, le schéma d'accumulation du context window ci-dessus en est la cause.

25:1

ratio input/output tokens dans une session typique de 50 tours

Source : Vantage, 2026 [1]

≈85%

du coût total de la session tiré par l'input, pas l'output

Source : Vantage, 2026 [1]

Pourquoi l'input est-il le côté coûteux, alors que l'output coûte 5× plus par token ?

C'est la partie qui fait trébucher les gens. Sur chaque palier Claude, les output tokens sont facturés au 5× du tarif input — 25 $ contre 5 $ par million sur Opus 4.8, 10 $ contre 2 $ sur Sonnet 5, 5 $ contre 1 $ sur Haiku 4.5. [5] L'instinct naïf est donc de faire écrire moins à l'agent. C'est le mauvais levier. Les input tokens tirent environ 85 % du coût total de la session en production, parce que l'écart de volume écrase l'écart de prix. [1] Un ratio de volume de 25:1 face à un ratio de prix de 5:1 signifie que l'input l'emporte quand même sur la facture par un facteur cinq. Dire à Claude Code d'« être concis » rogne la partie la moins chère et la plus petite de votre dépense. Le mouvement à fort levier est l'inverse : contrôler ce que l'agent lit à chaque tour. Récupérer uniquement le code pertinent au lieu de déverser des fichiers entiers, élaguer l'historique de conversation périmé, et ne pas re-fournir au modèle de l'output qu'il a déjà vu. C'est précisément l'écart que l'output filtering et la semantic code search sont conçus pour combler.

Combien coûtent réellement les tokens ?

Le tarif par million de tokens dépend du modèle qui propulse Claude Code. Les trois paliers Claude de production couvrent une amplitude de 5×.

Modèle	Input ($/MTok)	Output ($/MTok)	Cache read	≈ coût d'une session de 50 tours
Claude Opus 4.8	$5.00	$25.00	10% de l'input	≈$6.00
Claude Sonnet 5	$2.00	$10.00	10% de l'input	≈$3.60
Claude Haiku 4.5	$1.00	$5.00	10% de l'input	≈$1.20

Le coût de la session suppose ≈1M input + 40K output tokens, sans caching. Tarifs : Anthropic, Claude API Pricing docs (platform.claude.com, juin 2026) [5] ; volume de session d'après Vantage [1].

Pour le panorama complet inter-fournisseurs — GPT-5.5 à 5 $/30 $ par MTok et la gamme Gemini de Google incluse — voir la référence tarification des tokens des API LLM et la ventilation des coûts en tokens des agents de coding IA. Le détail qui compte ici : les cache read chez Anthropic sont facturés à 10 % du prix de base de l'input. [3]

Dans quelle mesure le prompt caching change-t-il la facture de Claude Code ?

Le prompt caching d'Anthropic facture les cache read tokens à 10 % du prix de base de l'input — une économie de 90 % sur le contexte répété — tandis qu'un cache write coûte 1,25× le prix de base de l'input pour un TTL de 5 minutes, ou 2× pour un TTL d'une heure. [3] Le hic, c'est que le préfixe mis en cache doit être identique octet pour octet d'une requête à l'autre. Réordonnez une seule instruction et le cache rate. GitHub a mesuré cela dans ses propres workflows agentiques en production en 2026 et a constaté que garder les définitions d'outils et les system prompts stables d'un tour à l'autre, et élaguer les schémas d'outils MCP inutilisés, suffisait à réduire les coûts en tokens par workflow jusqu'à 62 %. [6] Quand le préfixe dérive — ce qui est le défaut pour beaucoup de harnais d'agents — vous payez plein tarif. Le caching aide pour le préfixe stable. Il ne fait rien pour la partie de la facture qui est réellement neuve-mais-redondante : le même fichier relu à trois tours d'écart, la sortie de test sur laquelle vous avez déjà agi, le listing de répertoire que vous avez maintenant vu cinq fois. Ce résidu est l'essentiel de ce que la context compression cible.

Quelle part de la facture Claude Code n'est que du contexte renvoyé ?

Une bonne part. Un audit LeanOps de 2026 portant sur 30 équipes d'ingénierie faisant tourner de l'IA agentique en production a constaté que le contexte renvoyé représente ≈62 % de la facture totale. [4] Le même audit rapportait que les équipes atteignant 50 à 70 % de réduction de coûts en deux semaines combinaient systématiquement des plafonds de budget par utilisateur, le prompt caching, le routage par palier de modèle et l'élagage du context window. [4] C'est le chiffre phare pour quiconque cherche à réduire une facture Claude Code : environ six dollars sur dix correspondent au modèle relisant des choses qu'il a déjà vues. Vous ne pouvez pas corriger cela en changeant de modèle ou en écrivant des prompts plus laconiques — seulement en changeant ce qui est envoyé.

Où part réellement la facture Claude Code

Contexte renvoyé / redondant≈62 % de la facture

Input net-neuf (code pertinent, sortie d'outil fraîche)reste de l'input

Output (patches, explications)≈15 % du coût

Sources : audit LeanOps [4], analyse Vantage [1] (2026). Les largeurs des barres sont des classements qualitatifs, pas une métrique unique calculée.

Combien Claude Code coûte-t-il réellement à grande échelle ?

Des points de données d'entreprises et d'individus de 2026 donnent une idée concrète de la façon dont la dépense en tokens évolue avec l'intensité d'usage. Uber a épuisé l'intégralité de son budget d'outils IA 2026 dès avril — quatre mois après le début — après que l'adoption de Claude Code est passée de 32 % à 84 % parmi ses 5 000 ingénieurs. Les utilisateurs intensifs cumulaient 500–2 000 $ par ingénieur et par mois, et la direction d'Uber a reconnu ne pas pouvoir encore quantifier le retour de productivité malgré plus de 70 % du code commité généré par IA. [2] L'équipe de Peter Steinberger a fait tourner une centaine d'instances Codex dans le cloud pendant un mois, sur le projet OpenClaw, et a publié une facture de 1,3 million de dollars — 603 milliards de tokens sur 7,6 millions de requêtes. Une réserve à garder : les chiffres exacts proviennent d'une capture d'écran du post de Steinberger, pas d'une déclaration publiée. Mais les chiffres restent le benchmark public le plus concret pour l'agentic coding autonome à grande échelle. [7] Un développeur sur Reddit a laissé une boucle Claude Code tourner toute la nuit — interrogeant les mises à jour logicielles toutes les 30 minutes — et s'est réveillé avec une facture de 6 000 $. La cause était une combinaison d'un context window de 800 000 tokens reconstruit de zéro à chaque cycle (Anthropic avait discrètement changé le TTL de cache par défaut d'une heure à 5 minutes) et d'une absence de plafond de dépense. Il n'y avait aucun dashboard en temps réel pour l'avertir ; la première alerte fut l'e-mail confirmant les dégâts. [8] À l'autre extrémité de l'échelle, Henry Godnick a documenté une facture surprise de 80 $ générée par un script de traitement par lots qu'il avait laissé tourner sans surveillance — un rappel que même de petites boucles s'accumulent vite lorsque chaque itération reconstruit un contexte multi-tours. [9] Ces points de données partagent une structure commune : le pic de coût n'est pas un seul gros appel de modèle mais de nombreux appels moyens, chacun renvoyant un contexte croissant. L'implication pratique est que le savings dashboard compte le plus précisément quand une session est longue ou qu'une boucle tourne — les moments exacts où vous êtes le moins susceptible de surveiller.

Que dit la recherche sur les coûts de gestion du contexte des agents ?

Une étude évaluée par les pairs — Lindenbauer et al. (JetBrains Research), arXiv:2508.21433, publiée en août 2025 — a évalué les stratégies de gestion du contexte pour les agents d'ingénierie logicielle basés sur des LLM sur SWE-bench Verified, à travers cinq configurations de modèles. [10] La conclusion phare est contre-intuitive : le simple observation masking (tronquer les sorties d'outils plus anciennes) réduit de moitié le coût par rapport à la baseline brute de l'agent tout en égalant le taux de résolution d'une summarisation par LLM plus coûteuse. Avec Qwen3-Coder 480B, l'observation masking était 52 % moins cher que la baseline brute et améliorait le taux de résolution de 2,6 points de pourcentage. L'étude remet en cause l'hypothèse selon laquelle une gestion du contexte plus intelligente implique nécessairement plus d'appels LLM — parfois cela signifie simplement ne pas envoyer les anciennes données. L'implication plus large pour les utilisateurs de Claude Code : la conception du harnais d'agent (ce qu'il garde, ce qu'il jette, comment il gère les longues sorties d'outils) est une variable de coût aussi importante que le palier de modèle que vous choisissez.

Note méthodologique

Les prix par token proviennent de la page de tarification officielle d'Anthropic (source primaire, vérifiée en juin 2026). Les multiplicateurs du prompt caching proviennent de la documentation prompt caching d'Anthropic (source primaire). Les chiffres de volume de session et de répartition des coûts proviennent de l'analyse de production de Vantage. Le chiffre de 62 % de contexte renvoyé provient d'un audit industriel de 30 équipes en production, pas d'une étude académique, et doit être traité comme indicatif. Les données de coûts d'entreprise (Uber, OpenClaw) proviennent de reportages de presse contemporains. Le preprint arXiv de Lindenbauer et al. (2508.21433) est la source académique des benchmarks de coût de gestion du contexte sur SWE-bench Verified. Les coûts de session indicatifs utilisent les tarifs publiés d'Anthropic avec le profil de volume de Vantage et sans caching appliqué. Revérifiez chaque chiffre à sa source primaire avant de le citer dans un contexte commercial.

Vous voulez faire baisser ces chiffres ?

Tokenade se place devant Claude Code (et Cursor, Codex, Copilot, Windsurf) et coupe automatiquement le côté input — semantic code search au lieu de déversements de fichiers entiers, output filtering, skeleton compression et chargement MCP paresseux — avec un dashboard qui montre exactement ce que vous avez économisé. Gratuit jusqu'à ≈10M tokens/mois ; Pro à 24,90 $/mois (hors taxe), postes illimités. Source-available, sous licence MIT.

Découvrez comment Tokenade réduit l'utilisation des tokens de Claude Code →

Sources et références

[1]Vantage. "The Hidden Cost Driver in Agentic Coding Sessions in 2026". vantage.sh, 2026. Link ↗
[2]Storyboard18 / The Information. "Uber exhausts 2026 AI budget in four months amid massive Claude Code adoption". May 2026. Link ↗
[3]Anthropic. "Prompt caching — Claude API Docs". platform.claude.com, 2026. Link ↗
[4]LeanOps. "AI Agents Burn 50x More Tokens Than Chats". leanopstech.com, 2026. Link ↗
[5]Anthropic. "Pricing — Claude API Docs". platform.claude.com, 2026. Link ↗
[6]GitHub. "Improving token efficiency in GitHub Agentic Workflows". github.blog, 2026. Link ↗
[7]Tom's Hardware. "OpenClaw creator burns through $1.3 million in OpenAI API tokens in a single month — 603 billion tokens across 7.6 million requests and 100 coding agents". 2026. Link ↗
[8]MakeUseOf. "Someone left Claude Code running overnight, and it cost $6,000". makeuseof.com, 2025. Link ↗
[9]Godnick, Henry. "What Happened When I Got a Surprise $80 Claude Bill". dev.to, 2026. Link ↗
[10]Lindenbauer, Tobias et al. (JetBrains Research). "The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management". arXiv:2508.21433, August 2025. Link ↗

Statistiques d'utilisation des tokens de Claude Code (2026)

Key figures