Un seul prompt. Soixante-dix pour cent du mois. Envolés.
Vous payez 200 $ par mois pour Cursor Ultra parce que vous voulez de la marge. Vous sélectionnez Auto dans le sélecteur de modèle précisément pour ne pas avoir à surveiller quel modèle tourne — laissez Cursor faire le routage, gardez la facture raisonnable, et concentrez-vous sur votre travail. Puis vous envoyez un seul prompt de recherche. Et quand vous regardez votre consommation, un unique message a englouti environ 300 millions de tokens API — soit à peu près 70 % de tout votre quota mensuel Opus — d'un seul coup. Ce n'est pas une hypothèse. Le 26 février 2026, un utilisateur de Cursor publiant sous le nom « Rsardary » a décrit exactement cela sur le forum communautaire de Cursor. Le lendemain, un autre utilisateur, « Guillermo_Chavez », a répondu : « J'ai eu le même problème aujourd'hui. » Même surprise, même capture d'écran, même sentiment de vertige.Le piège caché dans le mot « Auto »
Voici le détail qui rend cette histoire digne d'être racontée. Rsardary a fait ce qu'il fallait. Il n'a pas épinglé manuellement le modèle de pointe le plus cher sur une tâche gigantesque. Il a sélectionné Auto — le mode que Cursor présente comme le réglage par défaut économique et raisonnable qui « ne touchera pas à votre pool de crédits » quand il vous route vers des modèles inclus. Mais comme il le formule : à un moment donné Cursor « a décidé qu'il allait utiliser claude-4.6-opus-high-thinking pour tous les subagents / skills, etc. » Le routeur a silencieusement escaladé une tâche de recherche vers le modèle le plus cher de la gamme — puis l'a déployée en éventail sur plusieurs subagents, chacun étant son propre compteur de facturation. C'est la partie que les gens oublient. « Auto » décide du modèle. Il ne décide pas quelle quantité de contexte chaque invocation traîne avec elle, et il ne plafonne certainement pas le nombre de boucles d'agent parallèles qu'il lance. Quand un seul prompt déclenche un arbre de subagents et que chacun fait tourner Opus en high-thinking sur un contexte massif, le nombre de tokens ne s'additionne pas — il se multiplie.D'où viennent réellement 300 millions de tokens
Trois cents millions de tokens semblent absurdes jusqu'à ce que vous fassiez l'arithmétique de l'agentic coding, et là, ça devient inévitable. Une « tâche de recherche » dans un IDE agentique n'est pas un seul appel de modèle. C'est une boucle, et souvent un arbre de boucles :- L'orchestrateur lit des fichiers pour se repérer dans le codebase.
- Il lance des subagents — chacun reçoit le contexte pertinent renvoyé depuis zéro, parce que les appels API sont sans état et que toute la context window est expédiée à chaque tour.
- Chaque subagent boucle : lire, raisonner, appeler un outil, replier la sortie brute de l'outil dans le prompt suivant, recommencer.
- Le mode « high-thinking » ajoute de longues chaînes de raisonnement interne par-dessus tout cela.
Ce que valent 300 millions de tokens en argent réel
Cursor masque tout ça derrière des crédits, ce qui est précisément pourquoi il est si facile de dériver. Convertissons-le en argent réel. Cursor Ultra est à 200 $/mois et inclut environ 400 $ de valeur d'usage d'agent API. Claude Opus 4.6 est facturé 5,00 $ par million d'input tokens et 25,00 $ par million d'output tokens. Les charges de travail agentiques sont massivement dominées par l'input, donc pour rester honnête, voici la fourchette pour 300 M de tokens selon le mélange input/output :| Mélange de tokens sur les 300 M | Ce que ça coûte aux tarifs Opus 4.6 |
|---|---|
| Tout en input (≈ pur brassage de contexte) | $1,500 |
| 90 % input / 10 % output | $2,100 |
| 80 % input / 20 % output | $2,700 |
Ce qu'une couche d'efficacité aurait changé (ESTIMATION)
Soyons précis sur ce que l'optimisation corrige ici et ce qu'elle ne corrige pas. Elle ne corrige pas le routeur qui escalade vers Opus — c'est une décision produit de Cursor, et la vraie leçon sur ce front est la gouvernance : fixez un plafond de dépense, et ne présumez pas qu'« Auto » veut dire « économe ». Aucun outil ne corrige un routeur que vous ne contrôlez pas. Ce que l'optimisation attaque, c'est la partie qui a transformé une tâche Opus en une tâche à 300 M de tokens : le gonflement du contexte. Les relectures redondantes de fichiers, la sortie d'outil non filtrée, le cache manquant sur les préfixes partagés. Ce sont exactement les leviers du guide de réduction des tokens, et ils sont indépendants du modèle choisi par le routeur. Une estimation prudente et clairement étiquetée. Supposons que l'input représentait ≈85 % des 300 M (255 M en input, 45 M en output) — typique d'une boucle de recherche. Réduisez l'input de 40–60 % avec de la semantic retrieval au lieu de lectures complètes, de l'output filtering sur les tool calls, et des préfixes cache-stables :| Scénario | Input tokens | Output tokens | Coût aux tarifs Opus 4.6 |
|---|---|---|---|
| Tel que ça s'est passé | 255M | 45M | $2,400 |
| Réduction d'input de 40 % | 153M | 45M | $1,890 |
| Réduction d'input de 60 % | 102M | 45M | $1,635 |
« Auto » route le modèle. Il ne route pas vos tokens.
Ce que je veux que vous reteniez du post de Rsardary, ce n'est pas « n'utilisez pas Cursor » — c'est un excellent outil, et le mode Auto est réellement pratique. C'est ceci : le réglage qui sonne économe contrôle quel modèle tourne, pas combien de tokens chaque exécution traîne avec elle. Quand un prompt de recherche se déploie en arbre de subagents high-thinking sans aucune discipline de contexte, la facture grandit avec le gonflement, et vous l'apprenez après coup. Tokenade se place entre votre AI coding agent et l'API — compressant le contexte, filtrant la sortie d'outil, et maintenant des préfixes cache-stables — pour que chaque boucle de subagent voie ce dont elle a besoin au lieu de réingérer votre codebase à chaque tour. Le modèle choisi par le routeur tourne toujours ; il tourne simplement sur une fraction de l'input. Vous pouvez vérifier votre propre exposition avec les chiffres du tarif des tokens API LLM et le calculateur de coût des tokens : entrez votre usage réel et voyez ce que vaut en argent une réduction d'input de 40–60 %. Gratuit jusqu'à environ 20 millions de tokens économisés. Commencez gratuitement — sans carte bancaire.Jusqu’à 88 % de tokens en moins. Sans configuration.
Tokenade est la façon la plus simple de réduire ce que votre agent de code envoie au modèle — installez-le une fois, économisez sur chaque prompt. Compatible avec Claude Code, Cursor, Codex, Copilot et plus.
Profiles are sourced from public statements, podcast interviews, Twitter/X posts, and Indie Hackers / Reddit threads cited inline. No private claims; if you spot a factual error, contact [email protected].