Un chiffre qui devrait alarmer tout responsable engineering
Imaginez expliquer à votre DAF à la mi-avril que le budget IA annuel est épuisé. Pas dépassé de 20 %. Épuisé. Quatre mois après le début de l'exercice fiscal, avec encore huit mois devant soi. C'est exactement ce qui s'est passé chez Uber. En décembre 2025, le CTO d'Uber Praveen Neppalli Naga a déployé Claude Code d'Anthropic auprès d'environ 5 000 ingénieurs. À la mi-avril 2026, il indiquait à The Information que l'entreprise devait tout "reprendre à zéro" sur la budgétisation IA. L'outil avait trop bien fonctionné — et personne n'avait pensé à demander ce que "bien fonctionner" allait coûter.Le classement qui a dévoré le budget
Uber n'a pas simplement donné Claude Code à ses ingénieurs. L'entreprise a construit des classements internes les rangeant selon leur volume d'utilisation des outils IA. Incitation explicite : utilisez-en plus, montez dans le classement. Le résultat était prévisible avec le recul, même si apparemment pas à l'avance. L'utilisation de l'agentic coding est passée de 32 % des ingénieurs en février 2026 à 84 % en mars. Quatre-vingt-quinze pour cent des ingénieurs touchaient aux outils IA chaque mois. Près de 70 % des commits de code les impliquaient d'une façon ou d'une autre. Des métriques d'adoption comme celles-là, c'est le genre de slide qu'on met dans un board. Jusqu'à ce que la facture arrive. Les coûts d'API mensuels par ingénieur ont atteint entre $500 et $2 000. Avec 5 000 ingénieurs à une moyenne de $1 000/mois, c'est environ $5M/mois — $20M sur quatre mois. Cohérent, en chiffres ronds, avec l'épuisement d'un budget annuel d'outils de coding IA avant l'été.Où sont allés les tokens de cinq mille ingénieurs
Voici la partie qui me semble vraiment éclairante, en tant que quelqu'un qui construit des outils de gestion de tokens au quotidien : le problème n'était pas que Claude Code faisait un travail inutile. Le problème, c'est que l'agentic coding est architecturalement coûteux quand rien ne le filtre. Chaque fois qu'un agent exécute une tâche — lit un fichier, lance une commande shell, vérifie la sortie des tests, boucle — la totalité de la fenêtre de contexte est renvoyée au modèle. Ce n'est pas une particularité de Claude ; c'est simplement comment fonctionnent les appels API sans état. Chaque tour de boucle repart de zéro. Un agent effectuant 20 itérations sur un refactoring peut envoyer 200 000 tokens d'entrée par tâche sans jamais générer plus de 300 lignes de code. Multipliez maintenant par les patterns qui aggravent les choses :- Des scans complets du répertoire au démarrage de session pour orienter l'agent dans le codebase
- Des lectures répétées des mêmes fichiers — le même module de 500 lignes ré-ingéré à chaque tour
- Des sorties d'outils verbeuses réinjectées en bloc dans le prompt suivant :
git logbrut, stack traces complets, sorties de tests entières - Aucune compression du contexte entre les étapes — la fenêtre grossit, elle ne se rétrécit pas
Ce qu'une couche d'efficacité aurait changé (ESTIMATION)
Les leviers qui alimentent la facture d'Uber sont bien identifiés : lectures de fichiers redondantes, dumps de contexte complet au démarrage de session, sorties d'outils verbeuses réinjectées à chaque tour, et absence de récupération sémantique pour limiter ce qui est chargé. Ce sont précisément les patterns que l'optimisation des tokens cible. Une estimation conservatrice : réduire les tokens d'entrée de 40 à 50 % grâce à une gestion de contexte plus intelligente — récupération sémantique plutôt que dumps de répertoire, filtrage des sorties sur les appels d'outils, prefixes stables en cache pour le contexte partagé — et le coût API baisse proportionnellement. À la valeur médiane de $1 000/mois par ingénieur sur 5 000 ingénieurs :| Scénario | Dépense mensuelle | Run-rate annuel |
|---|---|---|
| Baseline (tel que rapporté) | $5 000 000 | $60 000 000 |
| Réduction entrée 40 % | $3 200 000 | $38 400 000 |
| Réduction entrée 50 % | $2 750 000 | $33 000 000 |
La leçon n'est pas "utilisez moins l'IA"
Uber est l'exemple public le plus clair à ce jour de ce qui se passe quand une grande équipe d'ingénierie adopte l'agentic coding à grande échelle sans couche d'efficacité des tokens. Les tarifs des tokens LLM ne sont pas un abonnement SaaS à siège fixe. Il n'y a pas de plafond. Ils évoluent avec chaque tour de boucle, chaque re-lecture de fichier, chaque sortie verbose réinjectée dans le prompt suivant. Avec 5 000 ingénieurs, cet effet cumulatif produit l'épuisement du budget en quatre mois. La solution n'est pas d'utiliser moins l'IA. C'est d'arrêter d'envoyer des tokens inutiles. Tokenade se place entre votre agent de coding IA et l'API — en compressant le contexte, filtrant les sorties d'outils et routant les lectures de manière sémantique — pour que le modèle voie ce dont il a besoin sans re-lire l'ensemble de votre codebase à chaque tour. La calculatrice de coûts de tokens vous permet de faire les calculs pour votre propre équipe : ce que votre utilisation actuelle coûte réellement, et ce qu'une réduction de 40 à 50 % représente en euros. Gratuit jusqu'à environ 20 millions de tokens économisés. Démarrez gratuitement — sans carte bancaire.Jusqu’à 88 % de tokens en moins. Sans configuration.
Tokenade est la façon la plus simple de réduire ce que votre agent de code envoie au modèle — installez-le une fois, économisez sur chaque prompt. Compatible avec Claude Code, Cursor, Codex, Copilot et plus.
Profiles are sourced from public statements, podcast interviews, Twitter/X posts, and Indie Hackers / Reddit threads cited inline. No private claims; if you spot a factual error, contact [email protected].