Tarifs des tokens LLM API (2026)

Référence canonique 2026 pour les tarifs des tokens LLM API : Anthropic Claude, OpenAI GPT-5.x et Google Gemini 3.x — tarifs input/output, prime output, remises caching et économies batch, tous issus des pages tarifaires officielles.

Profile photo of Paul Irolla

Par Paul Irolla

Founder · AI & developer tools · Tokenade

Ph.D. in AI · builds token-optimization tooling for AI coding agents

Voir la page de l'auteur
16 min de lecture
Résumer avec l'IA
Citer cette page

Key figures

TL;DR
  • $5.00 / $25.00
    Claude Opus 4.8 input / output par million de tokens — le modèle phare d'Anthropic
    Anthropic, anthropic.com/pricing, juin 2026
  • $5.00 / $30.00
    GPT-5.5 input / output par million de tokens — le modèle frontier d'OpenAI
    OpenAI, openai.com/api/pricing, juin 2026
  • $1.50 / $9.00
    Gemini 3.5 Flash input / output par million de tokens — le dernier modèle rapide de Google
    Google, ai.google.dev/gemini-api/docs/pricing, juin 2026
  • 4–6×
    les output tokens coûtent 4 à 6 fois plus cher que les input tokens sur les principaux modèles 2026
    Dérivé des pages tarifaires officielles d'Anthropic, OpenAI et Google, juin 2026
  • 90%
    remise sur les cache-read de prompt Claude (cache read = 10 % du tarif input de base)
    Anthropic, anthropic.com/pricing, juin 2026
  • 50%
    remise batch API proposée par Anthropic, OpenAI et Google sur tous les modèles listés
    Pages tarifaires officielles d'Anthropic, OpenAI et Google, juin 2026
  • $0.20 / $1.25
    GPT-5.4-nano input / output par million de tokens — le modèle texte OpenAI le moins cher en 2026
    OpenAI, platform.openai.com/docs/pricing, juin 2026

Pourquoi ces chiffres comptent

Les tarifs par million de tokens d'Anthropic, OpenAI et Google sont les chiffres les plus directement exploitables pour tout développeur faisant tourner des workloads IA à grande échelle. Un modèle 5 fois plus cher par output token ne coûte pas seulement 5 fois plus par réponse — cela se multiplie à chaque tour d'une boucle agentique, chaque run de génération de tests et chaque refactor de fichier volumineux. Cette page rassemble les chiffres canoniques de juin 2026 issus des pages tarifaires officielles pour permettre aux développeurs de raisonner sur les coûts avant d'optimiser. Deux ratios déterminent votre facture plus que le nom du modèle : combien les output tokens coûtent de plus que les input tokens (la prime output), et à quel prix le caching sert les contextes répétés (la remise caching). Les deux sont couverts ici avec des chiffres précis. Pour comprendre comment ces tarifs se traduisent en coûts réels de session de coding, voir Coûts en tokens des agents de coding IA. Pour les mécanismes permettant de réduire le volume de tokens envoyés et reçus, voir le guide sur la réduction de l'utilisation des tokens des agents de coding IA.

Points clés

  • Claude Opus 4.8 coûte $5.00 input / $25.00 output par million de tokens — la prime output de 5× est uniforme sur les trois niveaux Claude [1]
  • GPT-5.5 coûte $5.00 input / $30.00 output par million de tokens — une prime output de 6×, la plus élevée parmi les modèles phares étudiés [2]
  • Gemini 3.5 Flash coûte $1.50 input / $9.00 output par million de tokens — le modèle phare à niveau unique le plus abordable en 2026 [3]
  • Les cache reads de prompt Claude coûtent $0.50/MTok sur Opus 4.8 — une remise de 90% par rapport au tarif input de base de $5.00 [1]
  • Les Batch APIs réduisent les coûts de 50% chez Anthropic, OpenAI et Google pour les workloads asynchrones [1][2][3]
  • GPT-5.4-nano à $0.20 input / $1.25 output est le modèle texte OpenAI le moins cher — 25× moins cher en input que GPT-5.5 [4]

Tarifs Anthropic Claude en 2026

Anthropic propose trois modèles Claude 4.x actifs en juin 2026 : Opus 4.8, Sonnet 4.6 et Haiku 4.5. Tous les tarifs sont des prix catalogue en USD par million de tokens pour des appels API synchrones standard (hors batch). [1]

Tarifs des modèles Claude — Input vs Output ($/MTok)

Opus 4.8$5 / $25
Sonnet 4.6$3 / $15
Haiku 4.5$1 / $5
Input Output

Source : [1] Anthropic, anthropic.com/pricing, juin 2026

Claude Opus 4.8 est tarifé à $5.00 par million de input tokens et $25.00 par million de output tokens. [1] Il prend en charge un context window de 1 million de tokens sur l'API Claude et 128k output tokens maximum (extensible à 300k via le streaming). Claude Sonnet 4.6, le modèle de production standard par défaut pour les tâches de coding, est à $3.00 / $15.00 par million de tokens, également avec un context window de 1M. [1] Claude Haiku 4.5, le niveau le plus rapide et le plus économique, est tarifé à $1.00 / $5.00 par million de tokens avec un context window de 200k. [1] Le ratio output/input est un net sur les trois modèles Claude. Cette cohérence signifie qu'un changement de modèle au sein de la famille Claude préserve le même profil de coût structurel — le prix absolu change, pas le ratio. Pour une session avec 128k output tokens sur Opus 4.8, les output tokens seuls coûtent $3.20 quelle que soit la structure de l'input.

Tarifs du prompt caching Claude

Le prompt caching d'Anthropic permet de stocker les contextes fréquemment réutilisés (system prompts, documents de référence, définitions d'outils) et de les relire à prix fortement réduit. Le TTL est de 5 minutes pour le prompt caching standard. [1]
ModèleInput de base $/MTokCache Write $/MTokCache Read $/MTokRemise Cache Read
Claude Opus 4.8$5.00$6.25$0.5090%
Claude Sonnet 4.6$3.00$3.75$0.3090%
Claude Haiku 4.5$1.00$1.25$0.1090%

Source : [1] Anthropic, anthropic.com/pricing, juin 2026. Le cache write est facturé à 1,25× le tarif input de base ; le cache read à 0,10× (TTL 5 minutes).

La pénalité de cache write — 1,25× le tarif input de base — est récupérée dès le deuxième cache hit. Chaque hit suivant représente une économie nette de $4.50/MTok sur Opus 4.8. Pour un agent qui relit un contexte système de 50k tokens à chaque tour, activer le prompt caching fait passer le coût input Opus 4.8 de $0.25 par tour à $0.025 par tour après le premier write.

Tarifs OpenAI GPT-5.x en 2026

La gamme 2026 d'OpenAI est passée de la génération GPT-4.x à une famille GPT-5.x. Les principaux modèles de production sont GPT-5.5 (frontier), GPT-5.4 (équilibre performance/coût), GPT-5.4-mini (léger) et GPT-5.4-nano (ultra low-cost). Tous les tarifs ci-dessous sont des prix catalogue standard (hors batch). [2][4] GPT-5.5, le modèle phare, est tarifé à $5.00 par million de input tokens et $30.00 par million de output tokens, avec l'input en cache à $0.50/MTok. [2] Context window : 1 million de tokens. GPT-5.4 est à $2.50 / $15.00 avec l'input en cache à $0.25/MTok. [4] Context window : 1,05 million de tokens. Note : les prompts dépassant 272k tokens sont facturés à 2× l'input et 1,5× l'output pour toute la session. GPT-5.4-mini est tarifé à $0.75 / $4.50 avec l'input en cache à $0.075/MTok. [4] Context window : 400k tokens. GPT-5.4-nano, le modèle texte le moins cher d'OpenAI, coûte $0.20 / $1.25 avec l'input en cache à $0.02/MTok. [4]

Tarifs des modèles OpenAI GPT-5.x — Comparaison du coût input ($/MTok)

GPT-5.5$5.00 in / $30.00 out
GPT-5.4$2.50 in / $15.00 out
GPT-5.4-mini$0.75 in / $4.50 out
GPT-5.4-nano$0.20 in / $1.25 out

Source : [2][4] OpenAI, openai.com/api/pricing et platform.openai.com/docs/pricing, juin 2026

Le ratio output/input sur GPT-5.5 est de ($30 ÷ $5) — le plus élevé parmi les modèles phares de cette comparaison. GPT-5.4 et GPT-5.4-mini affichent tous deux un ratio de 6× à des prix absolus inférieurs. Le ratio de GPT-5.4-nano descend à 6,25× ($1.25 ÷ $0.20). Le ratio de 6× sur toute la gamme OpenAI est systématiquement supérieur au 5× de Claude, ce qui rend les modèles OpenAI comparativement moins sensibles à la réduction de l'input et plus sensibles à la réduction de l'output. La Batch API d'OpenAI réduit les tarifs input et output de 50% pour les tâches asynchrones traitées dans les 24 heures. [2] Aux tarifs batch, GPT-5.5 coûte $2.50 / $15.00 par million de tokens — soit le même tarif que GPT-5.4 standard.

Tarifs Google Gemini 3.x en 2026

L'API Gemini de Google est passée à une génération Gemini 3.x à mi-2026. Les principaux modèles orientés développeurs sont Gemini 3.5 Flash (le nouveau fast flagship), Gemini 3.1 Flash-Lite (léger) et Gemini 3.1 Pro Preview (haute performance, statut preview). [3] Gemini 3.5 Flash est tarifé à $1.50 par million de input tokens et $9.00 par million de output tokens (niveau payant), avec le context caching à $0.15/MTok. [3] Context window : 1 million de tokens. Le tarif output inclut les thinking tokens. Gemini 3.1 Flash-Lite coûte $0.25 input / $1.50 output par million de tokens (texte/image/vidéo ; audio est au double), avec le context caching à $0.025/MTok. [3] Context window : 1 million de tokens. Gemini 3.1 Pro Preview fonctionne avec un tarif input à deux niveaux : $2.00 / $12.00 par million de tokens pour les prompts jusqu'à 200k tokens, passant à $4.00 / $18.00 pour les prompts dépassant 200k tokens. Le context caching est à $0.20/MTok (200k ou moins) ou $0.40/MTok (plus de 200k). [3] Context window : 1 million de tokens.
ModèleInput $/MTokOutput $/MTokContext Cache $/MTokPrime Output
Gemini 3.5 Flash$1.50$9.00$0.15
Gemini 3.1 Flash-Lite$0.25$1.50$0.025
Gemini 3.1 Pro Preview (≤200k)$2.00$12.00$0.20
Gemini 3.1 Pro Preview (>>200k)$4.00$18.00$0.404.5×

Source : [3] Google, ai.google.dev/gemini-api/docs/pricing, juin 2026. Context caching = tarif cache-read. L'output inclut les thinking tokens le cas échéant.

Le ratio output/input de Gemini 3.5 Flash est de ($9 ÷ $1.50), identique au ratio du modèle phare OpenAI. Le 3.1 Pro Preview descend à 4,5× sur les prompts longs car le tarif input double tandis que le tarif output n'augmente que de 50%. La Batch API de Gemini réduit tous les tarifs de 50% pour les workloads asynchrones. [3] Le context caching de Google est tarifé à environ 10% de l'input de base sur les trois modèles Gemini — numériquement similaire à la remise de 90% sur les cache-read d'Anthropic. Le coût de stockage ($1.00/MTok par heure) s'ajoute, rendant l'économie du caching Gemini la plus favorable pour les grands contextes fréquemment réutilisés, accédés de nombreuses fois dans une fenêtre courte.

Comparaison globale : tous les modèles, tous les tarifs (juin 2026)

FournisseurModèleInput $/MTokOutput $/MTokPrime OutputContext Window
AnthropicClaude Opus 4.8$5.00$25.001M tokens
AnthropicClaude Sonnet 4.6$3.00$15.001M tokens
AnthropicClaude Haiku 4.5$1.00$5.00200k tokens
OpenAIGPT-5.5$5.00$30.001M tokens
OpenAIGPT-5.4$2.50$15.001.05M tokens
OpenAIGPT-5.4-mini$0.75$4.50400k tokens
OpenAIGPT-5.4-nano$0.20$1.256.25×
GoogleGemini 3.5 Flash$1.50$9.001M tokens
GoogleGemini 3.1 Flash-Lite$0.25$1.501M tokens
GoogleGemini 3.1 Pro Preview (≤200k)$2.00$12.001M tokens

Sources : [1][2][3][4]. Tous les tarifs sont des prix catalogue standard (hors batch) par million de tokens ($/MTok), en USD, à juin 2026. À vérifier avant d'utiliser dans un modèle de coût — les tarifs changent à chaque sortie de modèle.

La prime output : pourquoi elle domine votre facture

Le ratio prix output/input s'étend de 5× à 6,25× sur les modèles de cette page. Le ratio de 5× de Claude est le plus favorable pour les workloads à fort output ; OpenAI et Gemini tournent systématiquement à 6×.
Prime output Claude (tous niveaux)
Source : [1]
Prime output OpenAI GPT-5.x & Gemini 3.x
Source : [2][3]
50%
Remise Batch API (les trois fournisseurs)
Source : [1][2][3]
L'implication pratique : si un agent émet 10k output tokens par tour et tourne pendant 100 tours, le coût output seul sur Claude Opus 4.8 est de $25.00. Réduire le volume output de 30% économise $7.50 par 100 tours — davantage que le coût input total de nombreuses sessions. Le volume de tokens, pas le niveau du modèle, est le principal moteur de facturation pour les workloads agentiques. Les outils qui réduisent le volume de tokens — réduction du contexte, filtrage des lectures de fichiers, compression du contenu répétitif — appliquent un multiplicateur fixe aux coûts quel que soit le modèle ou le fournisseur utilisé. Une réduction de 40% des tokens à $5.00 input / $30.00 output sur GPT-5.5 économise davantage en termes absolus que la même réduction sur Haiku 4.5, mais les deux donnent la même économie en pourcentage. Si vous souhaitez réduire proportionnellement votre facture API sur toute la stack, Tokenade compresse les tokens envoyés et reçus par les agents de coding IA au niveau du proxy.

Batch API et caching : les deux remises structurelles

Le prompt caching et les batch APIs représentent tous deux des remises orthogonales — elles peuvent être combinées, et elles ciblent des profils de workload différents. Le traitement batch (50% de réduction, les trois fournisseurs) convient aux grands jobs asynchrones : runs de tests nocturnes, traitement de documents en masse, passes de refactor hors ligne. La contrainte est une fenêtre de traitement de 24 heures et l'impossibilité d'utiliser les résultats en temps réel en cours d'exécution. Le prompt caching (90% de réduction sur les cache reads Claude ; ≈90% sur Gemini ; ≈90% sur les inputs en cache OpenAI) cible les contextes répétés — system prompts, bases de connaissances, longs préambules — qui reviennent à chaque tour d'une conversation en direct ou d'une boucle agentique. Il récompense les workloads interactifs en temps réel que les batch APIs ne peuvent pas servir. Appliqués conjointement (pour les workloads batch qui portent aussi un contexte répété), la remise effective sur les input tokens en cache est multiplicative : 50% batch × 90% cache-read = 95% de remise sur cette portion de l'input. À l'échelle sur Opus 4.8, cela donne un tarif input effectif de $0.25/MTok pour le contexte en cache dans un job batch, contre $5.00 au tarif catalogue standard.

Notes de sources

Sources et références

  1. [1]Anthropic. "API Pricing — Claude models". anthropic.com/pricing, juin 2026. Link ↗
  2. [2]OpenAI. "OpenAI API Pricing". openai.com/api/pricing, juin 2026. Link ↗
  3. [3]Google. "Gemini Developer API Pricing". ai.google.dev/gemini-api/docs/pricing, juin 2026. Link ↗
  4. [4]OpenAI. "Pricing — Detailed model table". platform.openai.com/docs/pricing, juin 2026. Link ↗
  5. [5]Anthropic. "Models overview — context windows and max output". platform.claude.com/docs/en/about-claude/models/overview, juin 2026. Link ↗

Tous les tarifs sont des prix catalogue USD standard (hors batch) par million de tokens à juin 2026. Les remises batch (50%), les suppléments de résidence des données (généralement +10%) et les remises de volume ne sont pas reflétés dans les tarifs de base. À revérifier avant utilisation dans un modèle de coût — les tarifs LLM API changent à chaque sortie de modèle sans préavis.

Up to 88% fewer tokens. Zero config.

Tokenade is the simplest way to cut what your coding agent sends to the model — set it up once, save on every prompt. Works with Claude Code, Cursor, Codex, Copilot & more.