Glossaire

Définitions claires de 16 termes liés aux tokens, LLM et agents de code IA — de la context window au MCP, écrits pour les développeurs qui payent la facture.

BPE (Byte-Pair Encoding)
Le byte-pair encoding (BPE) est l'algorithme sous-mot que la plupart des tokenizers utilisent pour découper le texte en tokens en fusionnant de façon répétée les paires d'octets adjacentes les plus fréquentes.
Lire la définition
Context Compression
La context compression réduit ce qu'un agent envoie au modèle — via des squelettes, des résumés et du filtrage — tout en préservant le signal utile, pour que la context window reste petite et économique.
Lire la définition
Context Window
Une context window est la quantité maximale de texte, mesurée en tokens, qu'un modèle peut prendre en compte à la fois — tout ce que l'agent lit à un tour doit tenir dedans.
Lire la définition
Embeddings
Représentations numériques vectorielles d'un texte (ou d'un code) qui capturent le sens sémantique, permettant aux modèles IA de retrouver, classer et raisonner sur du contenu par similarité plutôt que par correspondance de mots-clés.
Lire la définition
Fine-tuning
Le fine-tuning poursuit l'entraînement d'un modèle pré-entraîné sur vos propres exemples afin qu'il apprenne votre style, vos formats ou votre domaine — échangeant un coût d'entraînement initial contre des prompts plus courts et moins chers à l'inférence.
Lire la définition
Input tokens vs output tokens
Les input tokens sont ce que vous envoyez à un modèle ; les output tokens sont ce qu'il génère. Ils sont facturés différemment, et pour les AI coding agents c'est le côté input qui domine discrètement la facture.
Lire la définition
KV Cache
Le KV cache est la mémoire propre à chaque requête du modèle, contenant les clés et valeurs d'attention des tokens qu'il a déjà traités — ce qui rend chaque token suivant peu coûteux à générer, mais consomme de la mémoire GPU à mesure que le contexte grandit.
Lire la définition
MCP (Model Context Protocol)
MCP est un protocole ouvert qui permet aux agents IA de se connecter à des outils et données externes via des serveurs — la façon standard d'étendre les agents de codage comme Claude Code.
Lire la définition
Output Filtering
L'output filtering compacte les sorties bruyantes de commandes et d'outils — logs, builds, tests — en ne gardant que le signal utile avant qu'il n'atteigne le modèle, réduisant les tokens sans perte de sens.
Lire la définition
Prompt Caching
Le prompt caching permet à un modèle de réutiliser un préfixe de prompt stable déjà traité, sans le refacturer au plein tarif — réduisant les coûts sur des sessions longues et répétitives.
Lire la définition
RAG (Retrieval-Augmented Generation)
Un pattern qui récupère des documents pertinents au moment de la requête et les injecte dans le prompt du LLM, permettant au modèle de répondre à partir de connaissances actuelles et spécifiques sans réentraînement.
Lire la définition
Rate Limit
Un plafond imposé par un fournisseur sur le nombre de tokens ou de requêtes qu'un client API peut envoyer par minute ou par jour, qui throttle ou bloque les appels dépassant le seuil.
Lire la définition
Semantic Code Search
Le semantic code search trouve du code par signification plutôt que par mots-clés exacts, grâce aux embeddings — l'agent récupère ainsi les fonctions pertinentes au lieu de lire des fichiers entiers.
Lire la définition
Token
Un token est l'unité de texte qu'un LLM traite — un mot ou un fragment de sous-mot. Les agents de codage IA sont facturés et limités par le nombre de tokens, en entrée comme en sortie.
Lire la définition
Tokenizer
Un tokenizer découpe le texte en tokens que le modèle traite, généralement avec le BPE (byte-pair encoding). Le même texte donne des nombres de tokens différents selon les tokenizers.
Lire la définition
Tool Calling (Function Calling)
Le tool calling permet à un LLM de demander à votre code d'exécuter une fonction — lire un fichier, chercher du code, appeler une API — puis de continuer avec le résultat. C'est ainsi que les agents de code agissent.
Lire la définition