La context compression désigne toute technique qui réduit la taille du texte qu'un agent place dans la context window du modèle tout en conservant les informations dont le modèle a réellement besoin. Elle recouvre plusieurs approches : montrer le squelette d'un fichier (signatures et déclarations de haut niveau) plutôt que son corps complet, résumer un long historique, et filtrer les sorties bruyantes pour n'en garder que le signal.L'objectif n'est pas d'envoyer moins pour le principe — c'est d'éliminer les parties que le modèle n'utilisera pas tout en préservant celles qu'il utilisera. Un bon squelette, par exemple, conserve toutes les signatures de fonctions publiques pour que le modèle puisse raisonner sur le fichier, et omet uniquement les corps qu'il pourra récupérer plus tard si nécessaire.
Pourquoi la context compression est importante en 2026
Elle est importante parce que les agents relisent leur contexte à chaque tour, donc tout gonflement est payé de façon répétée au fil d'une session. La compression s'attaque directement aux tranches les plus importantes — lectures de fichiers et historique : les lectures orientées structure peuvent réduire un fichier de plus de moitié, et cette économie se répète chaque fois que le fichier serait autrement relu. Combinée au semantic search et à l'output filtering, c'est ainsi que le context engineering maintient coût et bruit à un niveau bas.
Quand la compression peut se retourner contre soi
Quand le détail supprimé était essentiel — compresser un corps de fonction dont le modèle avait besoin force un re-fetch, coûtant plus qu'économisé.
Pour les résumés avec perte de faits précis — les nombres exacts, identifiants ou chaînes d'erreur doivent être préservés, pas résumés.