Prompt Caching

Résumer avec l'IA
Citer cette page

Qu'est-ce que le prompt caching ?

Le prompt caching est une fonctionnalité fournisseur qui permet à un modèle de réutiliser le travail déjà effectué sur un préfixe stable de votre prompt, au lieu de retraiter (et de refacturer intégralement) ce texte à chaque appel. On structure ou marque la partie invariante — un prompt système, des conventions de projet, du matériel de référence — pour que les requêtes répétées touchent le cache et que seuls les nouveaux tokens soient facturés au plein tarif. Cela ne rend pas une seule requête plus petite ; cela rend les requêtes répétées qui partagent un préfixe commun bien moins chères. Les économies s'accumulent au fil d'une session.

Pourquoi le prompt caching est important en 2026

Il est important parce que les sessions de codage agentiques sont longues et répétitives : le même prompt système et les mêmes règles de projet sont envoyés à chaque tour. Sans cache, ce contexte fixe est refacturé à chaque étape. Avec lui, le préfixe stable est largement gratuit après le premier appel — c'est pourquoi garder ses instructions stables et compatibles avec le cache est un vrai levier sur les tokens. Voir Réduire l'utilisation de tokens de Claude Code.

Quand le prompt caching n'aide pas

  • Quand le préfixe change constamment — si le prompt système est réécrit ou le contexte réordonné à chaque tour, il n'y a rien de stable à mettre en cache.
  • Pour les prompts ponctuels — une seule requête sans répétition n'a aucun préfixe à réutiliser.

À lire aussi