Key figures
TL;DR- $5.00 / $25.00Claude Opus 4.8 input / output par million de tokens — le modèle phare d'AnthropicAnthropic, anthropic.com/pricing, juin 2026
- $5.00 / $30.00GPT-5.5 input / output par million de tokens — le modèle frontier d'OpenAIOpenAI, openai.com/api/pricing, juin 2026
- $1.50 / $9.00Gemini 3.5 Flash input / output par million de tokens — le dernier modèle rapide de GoogleGoogle, ai.google.dev/gemini-api/docs/pricing, juin 2026
- 4–6×les output tokens coûtent 4 à 6 fois plus cher que les input tokens sur les principaux modèles 2026Dérivé des pages tarifaires officielles d'Anthropic, OpenAI et Google, juin 2026
- 90%remise sur les cache-read de prompt Claude (cache read = 10 % du tarif input de base)Anthropic, anthropic.com/pricing, juin 2026
- 50%remise batch API proposée par Anthropic, OpenAI et Google sur tous les modèles listésPages tarifaires officielles d'Anthropic, OpenAI et Google, juin 2026
- $0.20 / $1.25GPT-5.4-nano input / output par million de tokens — le modèle texte OpenAI le moins cher en 2026OpenAI, platform.openai.com/docs/pricing, juin 2026
Pourquoi ces chiffres comptent
Les tarifs par million de tokens d'Anthropic, OpenAI et Google sont les chiffres les plus directement exploitables pour tout développeur faisant tourner des workloads IA à grande échelle. Un modèle 5 fois plus cher par output token ne coûte pas seulement 5 fois plus par réponse — cela se multiplie à chaque tour d'une boucle agentique, chaque run de génération de tests et chaque refactor de fichier volumineux. Cette page rassemble les chiffres canoniques de juin 2026 issus des pages tarifaires officielles pour permettre aux développeurs de raisonner sur les coûts avant d'optimiser. Deux ratios déterminent votre facture plus que le nom du modèle : combien les output tokens coûtent de plus que les input tokens (la prime output), et à quel prix le caching sert les contextes répétés (la remise caching). Les deux sont couverts ici avec des chiffres précis. Pour comprendre comment ces tarifs se traduisent en coûts réels de session de coding, voir Coûts en tokens des agents de coding IA. Pour les mécanismes permettant de réduire le volume de tokens envoyés et reçus, voir le guide sur la réduction de l'utilisation des tokens des agents de coding IA.Points clés
- •Claude Opus 4.8 coûte $5.00 input / $25.00 output par million de tokens — la prime output de 5× est uniforme sur les trois niveaux Claude [1]
- •GPT-5.5 coûte $5.00 input / $30.00 output par million de tokens — une prime output de 6×, la plus élevée parmi les modèles phares étudiés [2]
- •Gemini 3.5 Flash coûte $1.50 input / $9.00 output par million de tokens — le modèle phare à niveau unique le plus abordable en 2026 [3]
- •Les cache reads de prompt Claude coûtent $0.50/MTok sur Opus 4.8 — une remise de 90% par rapport au tarif input de base de $5.00 [1]
- •Les Batch APIs réduisent les coûts de 50% chez Anthropic, OpenAI et Google pour les workloads asynchrones [1][2][3]
- •GPT-5.4-nano à $0.20 input / $1.25 output est le modèle texte OpenAI le moins cher — 25× moins cher en input que GPT-5.5 [4]
Tarifs Anthropic Claude en 2026
Anthropic propose trois modèles Claude 4.x actifs en juin 2026 : Opus 4.8, Sonnet 4.6 et Haiku 4.5. Tous les tarifs sont des prix catalogue en USD par million de tokens pour des appels API synchrones standard (hors batch). [1]Tarifs des modèles Claude — Input vs Output ($/MTok)
Source : [1] Anthropic, anthropic.com/pricing, juin 2026
Tarifs du prompt caching Claude
Le prompt caching d'Anthropic permet de stocker les contextes fréquemment réutilisés (system prompts, documents de référence, définitions d'outils) et de les relire à prix fortement réduit. Le TTL est de 5 minutes pour le prompt caching standard. [1]| Modèle | Input de base $/MTok | Cache Write $/MTok | Cache Read $/MTok | Remise Cache Read |
|---|---|---|---|---|
| Claude Opus 4.8 | $5.00 | $6.25 | $0.50 | 90% |
| Claude Sonnet 4.6 | $3.00 | $3.75 | $0.30 | 90% |
| Claude Haiku 4.5 | $1.00 | $1.25 | $0.10 | 90% |
Source : [1] Anthropic, anthropic.com/pricing, juin 2026. Le cache write est facturé à 1,25× le tarif input de base ; le cache read à 0,10× (TTL 5 minutes).
Tarifs OpenAI GPT-5.x en 2026
La gamme 2026 d'OpenAI est passée de la génération GPT-4.x à une famille GPT-5.x. Les principaux modèles de production sont GPT-5.5 (frontier), GPT-5.4 (équilibre performance/coût), GPT-5.4-mini (léger) et GPT-5.4-nano (ultra low-cost). Tous les tarifs ci-dessous sont des prix catalogue standard (hors batch). [2][4] GPT-5.5, le modèle phare, est tarifé à $5.00 par million de input tokens et $30.00 par million de output tokens, avec l'input en cache à $0.50/MTok. [2] Context window : 1 million de tokens. GPT-5.4 est à $2.50 / $15.00 avec l'input en cache à $0.25/MTok. [4] Context window : 1,05 million de tokens. Note : les prompts dépassant 272k tokens sont facturés à 2× l'input et 1,5× l'output pour toute la session. GPT-5.4-mini est tarifé à $0.75 / $4.50 avec l'input en cache à $0.075/MTok. [4] Context window : 400k tokens. GPT-5.4-nano, le modèle texte le moins cher d'OpenAI, coûte $0.20 / $1.25 avec l'input en cache à $0.02/MTok. [4]Tarifs des modèles OpenAI GPT-5.x — Comparaison du coût input ($/MTok)
Source : [2][4] OpenAI, openai.com/api/pricing et platform.openai.com/docs/pricing, juin 2026
Tarifs Google Gemini 3.x en 2026
L'API Gemini de Google est passée à une génération Gemini 3.x à mi-2026. Les principaux modèles orientés développeurs sont Gemini 3.5 Flash (le nouveau fast flagship), Gemini 3.1 Flash-Lite (léger) et Gemini 3.1 Pro Preview (haute performance, statut preview). [3] Gemini 3.5 Flash est tarifé à $1.50 par million de input tokens et $9.00 par million de output tokens (niveau payant), avec le context caching à $0.15/MTok. [3] Context window : 1 million de tokens. Le tarif output inclut les thinking tokens. Gemini 3.1 Flash-Lite coûte $0.25 input / $1.50 output par million de tokens (texte/image/vidéo ; audio est au double), avec le context caching à $0.025/MTok. [3] Context window : 1 million de tokens. Gemini 3.1 Pro Preview fonctionne avec un tarif input à deux niveaux : $2.00 / $12.00 par million de tokens pour les prompts jusqu'à 200k tokens, passant à $4.00 / $18.00 pour les prompts dépassant 200k tokens. Le context caching est à $0.20/MTok (200k ou moins) ou $0.40/MTok (plus de 200k). [3] Context window : 1 million de tokens.| Modèle | Input $/MTok | Output $/MTok | Context Cache $/MTok | Prime Output |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 6× |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $0.025 | 6× |
| Gemini 3.1 Pro Preview (≤200k) | $2.00 | $12.00 | $0.20 | 6× |
| Gemini 3.1 Pro Preview (>>200k) | $4.00 | $18.00 | $0.40 | 4.5× |
Source : [3] Google, ai.google.dev/gemini-api/docs/pricing, juin 2026. Context caching = tarif cache-read. L'output inclut les thinking tokens le cas échéant.
Comparaison globale : tous les modèles, tous les tarifs (juin 2026)
| Fournisseur | Modèle | Input $/MTok | Output $/MTok | Prime Output | Context Window |
|---|---|---|---|---|---|
| Anthropic | Claude Opus 4.8 | $5.00 | $25.00 | 5× | 1M tokens |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 | 5× | 1M tokens |
| Anthropic | Claude Haiku 4.5 | $1.00 | $5.00 | 5× | 200k tokens |
| OpenAI | GPT-5.5 | $5.00 | $30.00 | 6× | 1M tokens |
| OpenAI | GPT-5.4 | $2.50 | $15.00 | 6× | 1.05M tokens |
| OpenAI | GPT-5.4-mini | $0.75 | $4.50 | 6× | 400k tokens |
| OpenAI | GPT-5.4-nano | $0.20 | $1.25 | 6.25× | |
| Gemini 3.5 Flash | $1.50 | $9.00 | 6× | 1M tokens | |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 6× | 1M tokens | |
| Gemini 3.1 Pro Preview (≤200k) | $2.00 | $12.00 | 6× | 1M tokens |
Sources : [1][2][3][4]. Tous les tarifs sont des prix catalogue standard (hors batch) par million de tokens ($/MTok), en USD, à juin 2026. À vérifier avant d'utiliser dans un modèle de coût — les tarifs changent à chaque sortie de modèle.
La prime output : pourquoi elle domine votre facture
Le ratio prix output/input s'étend de 5× à 6,25× sur les modèles de cette page. Le ratio de 5× de Claude est le plus favorable pour les workloads à fort output ; OpenAI et Gemini tournent systématiquement à 6×.Batch API et caching : les deux remises structurelles
Le prompt caching et les batch APIs représentent tous deux des remises orthogonales — elles peuvent être combinées, et elles ciblent des profils de workload différents. Le traitement batch (50% de réduction, les trois fournisseurs) convient aux grands jobs asynchrones : runs de tests nocturnes, traitement de documents en masse, passes de refactor hors ligne. La contrainte est une fenêtre de traitement de 24 heures et l'impossibilité d'utiliser les résultats en temps réel en cours d'exécution. Le prompt caching (90% de réduction sur les cache reads Claude ; ≈90% sur Gemini ; ≈90% sur les inputs en cache OpenAI) cible les contextes répétés — system prompts, bases de connaissances, longs préambules — qui reviennent à chaque tour d'une conversation en direct ou d'une boucle agentique. Il récompense les workloads interactifs en temps réel que les batch APIs ne peuvent pas servir. Appliqués conjointement (pour les workloads batch qui portent aussi un contexte répété), la remise effective sur les input tokens en cache est multiplicative : 50% batch × 90% cache-read = 95% de remise sur cette portion de l'input. À l'échelle sur Opus 4.8, cela donne un tarif input effectif de $0.25/MTok pour le contexte en cache dans un job batch, contre $5.00 au tarif catalogue standard.Notes de sources
Sources et références
- [1]Anthropic. "API Pricing — Claude models". anthropic.com/pricing, juin 2026. Link ↗
- [2]OpenAI. "OpenAI API Pricing". openai.com/api/pricing, juin 2026. Link ↗
- [3]Google. "Gemini Developer API Pricing". ai.google.dev/gemini-api/docs/pricing, juin 2026. Link ↗
- [4]OpenAI. "Pricing — Detailed model table". platform.openai.com/docs/pricing, juin 2026. Link ↗
- [5]Anthropic. "Models overview — context windows and max output". platform.claude.com/docs/en/about-claude/models/overview, juin 2026. Link ↗
Tous les tarifs sont des prix catalogue USD standard (hors batch) par million de tokens à juin 2026. Les remises batch (50%), les suppléments de résidence des données (généralement +10%) et les remises de volume ne sont pas reflétés dans les tarifs de base. À revérifier avant utilisation dans un modèle de coût — les tarifs LLM API changent à chaque sortie de modèle sans préavis.
Up to 88% fewer tokens. Zero config.
Tokenade is the simplest way to cut what your coding agent sends to the model — set it up once, save on every prompt. Works with Claude Code, Cursor, Codex, Copilot & more.