Tokenizer

Qu'est-ce qu'un tokenizer ?

Un tokenizer est le composant qui convertit du texte brut en une séquence de tokens que le modèle de langage lit réellement. La plupart des modèles modernes utilisent un schéma de sous-mots comme le byte-pair encoding (BPE), qui découpe le texte en fragments courants — les mots fréquents restent entiers, les mots rares se divisent en morceaux. L'étape inverse retransforme les sorties de tokens du modèle en texte lisible. Les tokenizers sont spécifiques à chaque modèle. La même phrase peut donner un nombre de tokens différent selon le tokenizer utilisé, ce qui explique pourquoi les comptages de tokens ne sont pas directement comparables d'un fournisseur à l'autre.

Pourquoi les tokenizers sont importants en 2026

Ils sont importants parce que le code se tokenise moins efficacement que la prose, ce qui affecte directement le coût d'un agent de codage IA. Les identifiants, la ponctuation, les espaces et les symboles rares courants dans le code source se découpent souvent en plus de tokens que l'anglais ordinaire, si bien qu'un fichier de code peut coûter plus de tokens que son nombre de caractères ne le laisse supposer. C'est pourquoi mesurer l'utilisation réelle de tokens (avec le bon tokenizer) est bien plus fiable qu'estimer à l'œil le nombre de caractères quand on cherche à réduire sa facture.

Quand le détail du tokenizer n'a pas d'importance

Pour des estimations approximatives — la règle empirique des ~4 caractères par token convient quand on a juste besoin d'un ordre de grandeur.
À l'intérieur d'un même modèle — si on ne change jamais de fournisseur, les différences absolues du tokenizer sont constantes et on peut raisonner en termes relatifs.

Qu'est-ce qu'un tokenizer ?

Pourquoi les tokenizers sont importants en 2026

Quand le détail du tokenizer n'a pas d'importance

À lire aussi