Pourquoi ces chiffres comptent pour quiconque fait tourner un agent de codage

Si vous faites tourner un agent de codage IA, votre facture est déterminée par une poignée de prix de tokens et un fait : l'agent relit son contexte à chaque étape, ce qui signifie que les mêmes tokens sont facturés encore et encore. Connaître les tarifs par token, la prime des tokens de sortie et la remise du caching, c'est ce qui transforme une facture surprenante en un budget maîtrisable. Les chiffres ci-dessous sont les leviers qui font réellement bouger les coûts. Ces prix évoluent à mesure que de nouveaux modèles sont publiés ; considérez chaque chiffre comme « en vigueur en 2026, selon la source citée » et vérifiez la page principale avant de le citer. Les relations entre eux — la sortie coûte plus que l'entrée, les lectures cache sont une fraction des lectures fraîches — restent stables même lorsque les prix absolus changent.

1. Combien coûte un million de tokens sur Claude ?

Un million de tokens sur Claude Opus 4.7 coûte environ 5 $ pour l'entrée et 25 $ pour la sortie, selon la documentation tarifaire d'Anthropic (2026). Sonnet 4.6, la valeur par défaut la plus courante pour le codage, tourne autour de 3 $ / 15 $, et Haiku 4.5 autour de 1 $ / 5 $. Ces chiffres semblent dérisoires jusqu'à ce que l'on réalise qu'une session agentique peut pousser des centaines de milliers de tokens à travers le modèle sur de nombreux tours — et la majeure partie correspond à des tokens d'entrée que l'agent renvoie continuellement. Le prix au million est l'unité ; la relecture tour par tour est le multiplicateur.

2. Pourquoi la sortie est-elle si bien plus chère que l'entrée ?

Les tokens de sortie coûtent environ cinq fois plus que les tokens d'entrée sur Claude (25 $ contre 5 $ par million sur Opus 4.7), selon la tarification Anthropic (2026). Ce ratio se maintient sur toute la gamme de modèles. La conséquence contre-intuitive : le levier le moins coûteux n'est généralement pas « faire écrire moins au modèle ». C'est « faire lire moins au modèle ». Les dépenses d'un agent de codage sont dominées par ce qu'il ingère en entrée — fichiers, sorties de commandes, historique de conversation — et non par le code qu'il émet. Demander à un agent d'« être concis » réduit la partie coûteuse par token mais peu volumineuse de la sortie ; réduire ce qu'on lui envoie s'attaque au volume plus important.

3. Combien le prompt caching permet-il d'économiser ?

Un token d'entrée mis en cache coûte environ 10 % d'un token frais — les lectures cache sont facturées à 0,1× le prix d'entrée de base, selon la documentation prompt caching d'Anthropic (2026). La contrepartie est une prime d'écriture unique (environ 1,25× pour le cache de 5 minutes), donc le caching devient rentable dès une seule relecture. Pour les longues sessions de codage, l'impact est significatif : les parties stables de votre contexte — prompt système, règles du projet, documentation de référence — peuvent être servies à un dixième du prix à chaque tour après le premier, au lieu d'être refacturées en totalité. C'est pourquoi maintenir des instructions stables et favorables au cache est un vrai levier de coût, pas une micro-optimisation.

4. Qu'est-ce qui a changé avec le context window à un million de tokens ?

Claude Opus 4.7 et Sonnet 4.6 prennent désormais en charge un context window de 1 000 000 tokens à tarif fixe, supprimant le surcoût antérieur qui s'appliquait aux requêtes dépassant environ 200 000 tokens, selon The New Stack (2026). Des fenêtres plus grandes rendent possible de fournir davantage à l'agent — mais « possible » ne signifie pas « judicieux ». Chaque token dans la fenêtre est toujours facturé et refacturé à chaque tour, et les modèles prêtent le moins d'attention au contenu enfoui au milieu d'un long contexte. Un context window à un million de tokens récompense une ingénierie de contexte disciplinée, pas le remplissage indiscriminé.

5. Qu'est-ce que cela signifie pour votre facture d'agent ?

En résumé : le volume d'entrée domine, la sortie porte une prime de 5×, le contexte mis en cache représente ~10 % du coût du contexte frais, et une fenêtre plus grande ne réduit pas le prix par token. La lecture actionnable est que le mouvement à plus fort levier consiste à envoyer moins de tokens, mais de meilleurs tokens — récupérer par le sens, compresser la sortie, mettre en cache le contexte stable. Le guide complet se trouve dans Comment réduire l'utilisation de tokens d'un agent de codage IA, et Tokenade applique ces leviers automatiquement.

Notes de sources

Les prix par token et le ratio entrée/sortie proviennent de la page officielle de tarification d'Anthropic (2026) — source primaire, mais les versions de modèles et les prix changent ; vérifiez avant de citer.
La remise sur les lectures cache provient de la documentation prompt caching d'Anthropic (2026) — source primaire.
Le changement vers un contexte à tarif fixe à un million de tokens est rapporté par The New Stack (2026) — source secondaire corroborant la documentation sur le context window d'Anthropic.
Les chiffres de volume de tokens par session sont intentionnellement omis : nous ne disposons pas d'une source citée et méthodologiquement solide pour « tokens par tâche de codage », et le prompt des statistiques interdit d'en inventer une.

Coûts en tokens des agents de codage IA : chiffres clés

Key figures