Glossaire
Définitions claires de 11 termes liés aux tokens, LLM et agents de code IA — de la context window au MCP, écrits pour les développeurs qui payent la facture.
Context Compression
La context compression réduit ce qu'un agent envoie au modèle — via des squelettes, des résumés et du filtrage — tout en préservant le signal utile, pour que la context window reste petite et économique.
Lire la définitionContext Window
Une context window est la quantité maximale de texte, mesurée en tokens, qu'un modèle peut prendre en compte à la fois — tout ce que l'agent lit à un tour doit tenir dedans.
Lire la définitionEmbeddings
Représentations numériques vectorielles d'un texte (ou d'un code) qui capturent le sens sémantique, permettant aux modèles IA de retrouver, classer et raisonner sur du contenu par similarité plutôt que par correspondance de mots-clés.
Lire la définitionMCP (Model Context Protocol)
MCP est un protocole ouvert qui permet aux agents IA de se connecter à des outils et données externes via des serveurs — la façon standard d'étendre les agents de codage comme Claude Code.
Lire la définitionOutput Filtering
L'output filtering compacte les sorties bruyantes de commandes et d'outils — logs, builds, tests — en ne gardant que le signal utile avant qu'il n'atteigne le modèle, réduisant les tokens sans perte de sens.
Lire la définitionPrompt Caching
Le prompt caching permet à un modèle de réutiliser un préfixe de prompt stable déjà traité, sans le refacturer au plein tarif — réduisant les coûts sur des sessions longues et répétitives.
Lire la définitionRAG (Retrieval-Augmented Generation)
Un pattern qui récupère des documents pertinents au moment de la requête et les injecte dans le prompt du LLM, permettant au modèle de répondre à partir de connaissances actuelles et spécifiques sans réentraînement.
Lire la définitionRate Limit
Un plafond imposé par un fournisseur sur le nombre de tokens ou de requêtes qu'un client API peut envoyer par minute ou par jour, qui throttle ou bloque les appels dépassant le seuil.
Lire la définitionSemantic Code Search
Le semantic code search trouve du code par signification plutôt que par mots-clés exacts, grâce aux embeddings — l'agent récupère ainsi les fonctions pertinentes au lieu de lire des fichiers entiers.
Lire la définitionToken
Un token est l'unité de texte qu'un LLM traite — un mot ou un fragment de sous-mot. Les agents de codage IA sont facturés et limités par le nombre de tokens, en entrée comme en sortie.
Lire la définitionTokenizer
Un tokenizer découpe le texte en tokens que le modèle traite, généralement avec le BPE (byte-pair encoding). Le même texte donne des nombres de tokens différents selon les tokenizers.
Lire la définition