Comment un seul prompt Cursor a brûlé 300 M de tokens

Un seul prompt. Soixante-dix pour cent du mois. Envolés.

Vous payez 200 $ par mois pour Cursor Ultra parce que vous voulez de la marge. Vous sélectionnez Auto dans le sélecteur de modèle précisément pour ne pas avoir à surveiller quel modèle tourne — laissez Cursor faire le routage, gardez la facture raisonnable, et concentrez-vous sur votre travail. Puis vous envoyez un seul prompt de recherche. Et quand vous regardez votre consommation, un unique message a englouti environ 300 millions de tokens API — soit à peu près 70 % de tout votre quota mensuel Opus — d'un seul coup. Ce n'est pas une hypothèse. Le 26 février 2026, un utilisateur de Cursor publiant sous le nom « Rsardary » a décrit exactement cela sur le forum communautaire de Cursor. Le lendemain, un autre utilisateur, « Guillermo_Chavez », a répondu : « J'ai eu le même problème aujourd'hui. » Même surprise, même capture d'écran, même sentiment de vertige.

Le piège caché dans le mot « Auto »

Voici le détail qui rend cette histoire digne d'être racontée. Rsardary a fait ce qu'il fallait. Il n'a pas épinglé manuellement le modèle de pointe le plus cher sur une tâche gigantesque. Il a sélectionné Auto — le mode que Cursor présente comme le réglage par défaut économique et raisonnable qui « ne touchera pas à votre pool de crédits » quand il vous route vers des modèles inclus. Mais comme il le formule : à un moment donné Cursor « a décidé qu'il allait utiliser claude-4.6-opus-high-thinking pour tous les subagents / skills, etc. » Le routeur a silencieusement escaladé une tâche de recherche vers le modèle le plus cher de la gamme — puis l'a déployée en éventail sur plusieurs subagents, chacun étant son propre compteur de facturation. C'est la partie que les gens oublient. « Auto » décide du modèle. Il ne décide pas quelle quantité de contexte chaque invocation traîne avec elle, et il ne plafonne certainement pas le nombre de boucles d'agent parallèles qu'il lance. Quand un seul prompt déclenche un arbre de subagents et que chacun fait tourner Opus en high-thinking sur un contexte massif, le nombre de tokens ne s'additionne pas — il se multiplie.

D'où viennent réellement 300 millions de tokens

Trois cents millions de tokens semblent absurdes jusqu'à ce que vous fassiez l'arithmétique de l'agentic coding, et là, ça devient inévitable. Une « tâche de recherche » dans un IDE agentique n'est pas un seul appel de modèle. C'est une boucle, et souvent un arbre de boucles :

L'orchestrateur lit des fichiers pour se repérer dans le codebase.
Il lance des subagents — chacun reçoit le contexte pertinent renvoyé depuis zéro, parce que les appels API sont sans état et que toute la context window est expédiée à chaque tour.
Chaque subagent boucle : lire, raisonner, appeler un outil, replier la sortie brute de l'outil dans le prompt suivant, recommencer.
Le mode « high-thinking » ajoute de longues chaînes de raisonnement interne par-dessus tout cela.

Maintenant, imaginez tout ça sans aucune couche d'efficacité au milieu. Des relectures de fichiers entiers au lieu de skeletons structurés d'abord. Une sortie d'outil verbeuse — des résultats de recherche entiers, des dumps de fichiers complets — collée telle quelle dans le tour suivant. Aucun prompt caching sur le préfixe partagé, donc le même contexte système est facturé comme un input neuf à chaque boucle. Multipliez quelques centaines de milliers de tokens d'input par tour par des dizaines de tours sur plusieurs subagents parallèles, et 300 M n'a rien d'aberrant. C'est ce que l'architecture fait quand rien ne l'élague. C'est le même mécanisme que je vois partout : les input tokens, pas la sortie du modèle, voilà la facture. Les données sur le coût en tokens des AI coding agents placent l'input à 80–90 % de la dépense — et l'input est dominé par le contexte que vous avez renvoyé, pas par quoi que ce soit que l'agent a produit.

Ce que valent 300 millions de tokens en argent réel

Cursor masque tout ça derrière des crédits, ce qui est précisément pourquoi il est si facile de dériver. Convertissons-le en argent réel. Cursor Ultra est à 200 $/mois et inclut environ 400 $ de valeur d'usage d'agent API. Claude Opus 4.6 est facturé 5,00 $ par million d'input tokens et 25,00 $ par million d'output tokens. Les charges de travail agentiques sont massivement dominées par l'input, donc pour rester honnête, voici la fourchette pour 300 M de tokens selon le mélange input/output :

Mélange de tokens sur les 300 M	Ce que ça coûte aux tarifs Opus 4.6
Tout en input (≈ pur brassage de contexte)	$1,500
90 % input / 10 % output	$2,100
80 % input / 20 % output	$2,700

Donc un seul prompt a vraisemblablement consommé 1 500–2 700 $ de valeur API brute. Face à une allocation incluse de 400 $, voilà pourquoi cela s'est traduit par ≈70 % du quota mensuel parti d'un coup. Un message. Aucune alerte avant que le compteur n'ait déjà tourné.

Ce qu'une couche d'efficacité aurait changé (ESTIMATION)

Soyons précis sur ce que l'optimisation corrige ici et ce qu'elle ne corrige pas. Elle ne corrige pas le routeur qui escalade vers Opus — c'est une décision produit de Cursor, et la vraie leçon sur ce front est la gouvernance : fixez un plafond de dépense, et ne présumez pas qu'« Auto » veut dire « économe ». Aucun outil ne corrige un routeur que vous ne contrôlez pas. Ce que l'optimisation attaque, c'est la partie qui a transformé une tâche Opus en une tâche à 300 M de tokens : le gonflement du contexte. Les relectures redondantes de fichiers, la sortie d'outil non filtrée, le cache manquant sur les préfixes partagés. Ce sont exactement les leviers du guide de réduction des tokens, et ils sont indépendants du modèle choisi par le routeur. Une estimation prudente et clairement étiquetée. Supposons que l'input représentait ≈85 % des 300 M (255 M en input, 45 M en output) — typique d'une boucle de recherche. Réduisez l'input de 40–60 % avec de la semantic retrieval au lieu de lectures complètes, de l'output filtering sur les tool calls, et des préfixes cache-stables :

Scénario	Input tokens	Output tokens	Coût aux tarifs Opus 4.6
Tel que ça s'est passé	255M	45M	$2,400
Réduction d'input de 40 %	153M	45M	$1,890
Réduction d'input de 60 %	102M	45M	$1,635

Cela représente environ 510–765 $ de valeur API récupérée sur un seul prompt, ou en termes Cursor, la différence entre brûler 70 % du mois et en brûler plutôt 25–35 %. Même modèle Opus. Même tâche. Juste sans renvoyer le contexte que le modèle avait déjà. Les économies sont une estimation liée au seul levier que vous pouvez contrôler — la taille du contexte — en utilisant les vrais tarifs Opus 4.6. Le but n'est pas un chiffre précis ; c'est que le gonflement, pas le nom du modèle, est ce qui a rendu le chiffre énorme.

« Auto » route le modèle. Il ne route pas vos tokens.

Ce que je veux que vous reteniez du post de Rsardary, ce n'est pas « n'utilisez pas Cursor » — c'est un excellent outil, et le mode Auto est réellement pratique. C'est ceci : le réglage qui sonne économe contrôle quel modèle tourne, pas combien de tokens chaque exécution traîne avec elle. Quand un prompt de recherche se déploie en arbre de subagents high-thinking sans aucune discipline de contexte, la facture grandit avec le gonflement, et vous l'apprenez après coup. Tokenade se place entre votre AI coding agent et l'API — compressant le contexte, filtrant la sortie d'outil, et maintenant des préfixes cache-stables — pour que chaque boucle de subagent voie ce dont elle a besoin au lieu de réingérer votre codebase à chaque tour. Le modèle choisi par le routeur tourne toujours ; il tourne simplement sur une fraction de l'input. Vous pouvez vérifier votre propre exposition avec les chiffres du tarif des tokens API LLM et le calculateur de coût des tokens : entrez votre usage réel et voyez ce que vaut en argent une réduction d'input de 40–60 %. Gratuit jusqu'à environ 10 millions de tokens économisés. Commencez gratuitement — sans carte bancaire.

Profiles are sourced from public statements, podcast interviews, Twitter/X posts, and Indie Hackers / Reddit threads cited inline. No private claims; if you spot a factual error, let us know.