L'outil IA que personne chez Uber ne pouvait arrêter

Un chiffre qui devrait alarmer tout responsable engineering

Imaginez expliquer à votre DAF à la mi-avril que le budget IA annuel est épuisé. Pas dépassé de 20 %. Épuisé. Quatre mois après le début de l'exercice fiscal, avec encore huit mois devant soi. C'est exactement ce qui s'est passé chez Uber. En décembre 2025, le CTO d'Uber Praveen Neppalli Naga a déployé Claude Code d'Anthropic auprès d'environ 5 000 ingénieurs. À la mi-avril 2026, il indiquait à The Information que l'entreprise devait tout "reprendre à zéro" sur la budgétisation IA. L'outil avait trop bien fonctionné — et personne n'avait pensé à demander ce que "bien fonctionner" allait coûter.

Le classement qui a dévoré le budget

Uber n'a pas simplement donné Claude Code à ses ingénieurs. L'entreprise a construit des classements internes les rangeant selon leur volume d'utilisation des outils IA. Incitation explicite : utilisez-en plus, montez dans le classement. Le résultat était prévisible avec le recul, même si apparemment pas à l'avance. L'utilisation de l'agentic coding est passée de 32 % des ingénieurs en février 2026 à 84 % en mars. Quatre-vingt-quinze pour cent des ingénieurs touchaient aux outils IA chaque mois. Près de 70 % des commits de code les impliquaient d'une façon ou d'une autre. Des métriques d'adoption comme celles-là, c'est le genre de slide qu'on met dans un board. Jusqu'à ce que la facture arrive. Les coûts d'API mensuels par ingénieur ont atteint entre $500 et $2 000. Avec 5 000 ingénieurs à une moyenne de $1 000/mois, c'est environ $5M/mois — $20M sur quatre mois. Cohérent, en chiffres ronds, avec l'épuisement d'un budget annuel d'outils de coding IA avant l'été.

Où sont allés les tokens de cinq mille ingénieurs

Voici la partie qui me semble vraiment éclairante, en tant que quelqu'un qui construit des outils de gestion de tokens au quotidien : le problème n'était pas que Claude Code faisait un travail inutile. Le problème, c'est que l'agentic coding est architecturalement coûteux quand rien ne le filtre. Chaque fois qu'un agent exécute une tâche — lit un fichier, lance une commande shell, vérifie la sortie des tests, boucle — la totalité de la fenêtre de contexte est renvoyée au modèle. Ce n'est pas une particularité de Claude ; c'est simplement comment fonctionnent les appels API sans état. Chaque tour de boucle repart de zéro. Un agent effectuant 20 itérations sur un refactoring peut envoyer 200 000 tokens d'entrée par tâche sans jamais générer plus de 300 lignes de code. Multipliez maintenant par les patterns qui aggravent les choses :

Des scans complets du répertoire au démarrage de session pour orienter l'agent dans le codebase
Des lectures répétées des mêmes fichiers — le même module de 500 lignes ré-ingéré à chaque tour
Des sorties d'outils verbeuses réinjectées en bloc dans le prompt suivant : git log brut, stack traces complets, sorties de tests entières
Aucune compression du contexte entre les étapes — la fenêtre grossit, elle ne se rétrécit pas

Avec un tarif Claude Sonnet de $3/MTok en entrée et $15/MTok en sortie, une session atteignant 1M de tokens d'entrée et 100K de tokens de sortie coûte $4,50. Dix sessions par jour placent un développeur à $1 350/mois — bien dans la fourchette rapportée. Les données sur les coûts en tokens des agents de coding IA confirment que les tokens d'entrée représentent 80 à 90 % de la facture, portés quasi entièrement par les re-lectures de contexte — pas par ce que le modèle génère réellement. Le classement a aggravé les choses de manière structurelle. Un ingénieur qui optimise pour le volume d'utilisation n'a aucun signal pour être efficace. Le système récompensait la consommation, pas ce que la consommation était censée produire. Le COO d'Uber Andrew Macdonald l'a reconnu dans une interview de mai 2026 : "Il est très difficile de tracer une ligne entre l'un de ces chiffres et 'OK, nous produisons maintenant 25 % de fonctionnalités consommateurs vraiment utiles en plus.'" Pour le contexte, les dépenses totales de R&D d'Uber s'élevaient à $3,4 milliards en 2025. Le budget des outils de coding IA n'en représente qu'une infime fraction — mais c'est cette fraction-là qui s'est tarie.

Ce qu'une couche d'efficacité aurait changé (ESTIMATION)

Les leviers qui alimentent la facture d'Uber sont bien identifiés : lectures de fichiers redondantes, dumps de contexte complet au démarrage de session, sorties d'outils verbeuses réinjectées à chaque tour, et absence de récupération sémantique pour limiter ce qui est chargé. Ce sont précisément les patterns que l'optimisation des tokens cible. Une estimation conservatrice : réduire les tokens d'entrée de 40 à 50 % grâce à une gestion de contexte plus intelligente — récupération sémantique plutôt que dumps de répertoire, filtrage des sorties sur les appels d'outils, prefixes stables en cache pour le contexte partagé — et le coût API baisse proportionnellement. À la valeur médiane de $1 000/mois par ingénieur sur 5 000 ingénieurs :

Scénario	Dépense mensuelle	Run-rate annuel
Baseline (tel que rapporté)	$5 000 000	$60 000 000
Réduction entrée 40 %	$3 200 000	$38 400 000
Réduction entrée 50 %	$2 750 000	$33 000 000

Cette fourchette de 40 à 50 % correspond aux benchmarks indépendants pour les outils appliquant la récupération sémantique, la compression de contexte et les lectures structure-first — les techniques couvertes dans le guide de réduction des tokens. Économie estimée à l'échelle d'Uber : $21M à $27M/an, ou vu autrement, le même budget couvrant 8 à 9 mois au lieu de 4. Soyons précis sur ce que l'optimisation résout et ne résout pas : le problème de gouvernance lié au classement est réel et distinct. Récompenser le volume plutôt que les résultats est un choix de management ; aucun outil ne corrige ça. Mais le problème architectural — l'absence de couche d'efficacité entre l'agent et l'API — c'est exactement ce que l'outillage adresse. Les deux problèmes se compoundaient. Corriger l'architecture arrête au moins d'amplifier la défaillance de gouvernance.

La leçon n'est pas "utilisez moins l'IA"

Uber est l'exemple public le plus clair à ce jour de ce qui se passe quand une grande équipe d'ingénierie adopte l'agentic coding à grande échelle sans couche d'efficacité des tokens. Les tarifs des tokens LLM ne sont pas un abonnement SaaS à siège fixe. Il n'y a pas de plafond. Ils évoluent avec chaque tour de boucle, chaque re-lecture de fichier, chaque sortie verbose réinjectée dans le prompt suivant. Avec 5 000 ingénieurs, cet effet cumulatif produit l'épuisement du budget en quatre mois. La solution n'est pas d'utiliser moins l'IA. C'est d'arrêter d'envoyer des tokens inutiles. Tokenade se place entre votre agent de coding IA et l'API — en compressant le contexte, filtrant les sorties d'outils et routant les lectures de manière sémantique — pour que le modèle voie ce dont il a besoin sans re-lire l'ensemble de votre codebase à chaque tour. La calculatrice de coûts de tokens vous permet de faire les calculs pour votre propre équipe : ce que votre utilisation actuelle coûte réellement, et ce qu'une réduction de 40 à 50 % représente en euros. Gratuit jusqu'à environ 10 millions de tokens économisés. Démarrez gratuitement — sans carte bancaire.

Profiles are sourced from public statements, podcast interviews, Twitter/X posts, and Indie Hackers / Reddit threads cited inline. No private claims; if you spot a factual error, let us know.