Définition et principe
Un token (jeton en français) est une unité de base utilisée dans le traitement automatique du langage naturel (TALN) pour modéliser un texte. Il peut être une ponctuation, un mot ou une sous-unité plus petite comme un morphème [1]. Chaque token est repéré par un identifiant (Id) unique propre à chaque LLM.
Regardons d’un peu plus près le principe de fonctionnement du tokenizer d’OpenAI en lui entrant la phrase : « La chanteuse effectuait des vocalises avant son tour de chant. »

Le tokeniser d’OpenAI - Transciption
Illustration du principe fonctionnement du tokeniser d’OpenAI à partir de la phrase « La chanteuse effectuait des vocalises avant son tour de chant ».
Cette phrase comportant 10 mots pour un total de 62 caractères est composée de 16 tokens.
Chacun d’entre eux possède un « Id » unique. Par exemple 8921 pour le token « La »
On remarque que les 10 mots qui composent la phrase font intervenir 16 tokens ayant chacun un « Id » unique.
Les tokens permettent de découper le texte en unités significatives pour l’analyse linguistique facilitant ainsi le traitement par les modèles d’IA génératives. Ils permettent par exemple de comprendre et générer de nombreux mots et leurs variations à partir d’un vocabulaire de base limité. Lors de la phase d’apprentissage, les grands modèles de langage apprennent à comprendre les relations statistiques entre les tokens. Cela leur permet ensuite de générer des séries de tokens liés les uns aux autres selon des lois mathématiques précises.
Le nombre de tokens qu’un grand modèle de langage peut traiter en entrée et en sortie est limité et dépend de l’architecture et de la taille du réseau profond de neurones employé. Par exemple pour la version gratuite de ChatGPT 3.5, le nombre de tokens maximum pouvant être traité est de 4096 ce qui correspond à environ 3000 mots. Cette limitation explique pourquoi l’IA stoppe sa réponse dès que la somme des tokens d’entrée et de sortie dépasse 4096. Afin d’optimiser un prompt il convient donc d’être concis dans sa formulation ou bien fractionner les tâches à faire réaliser par l’IA en plusieurs fois. Dans les versions payantes d’IA génératives, le nombre de tokens consommé en entrée et en sortie sert d’unité de mesure pour le prix facturé.

Quelques caractéristiques de ChatGPT-4 et ChatGPT-3.5 - Transciption
Pour le LLM ChatGPT-4 (payant)
Nombre de paramètres sur le lequel le LLM a été entraîné : 100000 milliards.
Volume de texte pris en compte : 25000 mots.
Combien de mots précédents peut-il analyser ? : environ 6000 mots (8192 tokens).
Nombre de langues supportées : 26.
Accepte des images en entrée ? : Oui.
Analyse les fichiers PDF ? : Oui.
Pour le LLM ChatGPT-3 (gratuit)
Nombre de paramètres sur le lequel le LLM a été entraîné : 175 milliards.
Volume de texte pris en compte : 3000 mots.
Combien de mots précédents peut-il analyser ? : environ 3000 mots (4096 tokens).
Nombre de langues supportées : 25.
Accepte des images en entrée ? : Non.
Analyse les fichiers PDF ? : Non.
Qu’est-ce que la tokenization ?
Les mots qui composent un prompt, c’est-à-dire une séquence d’instructions devant être réalisées par une IA générative, sont préalablement découpés en tokens par l’IA : on parle d’opération de tokenization.
La tokenization permet, en particulier, de gérer les situations pouvant conduire potentiellement à des points de blocages. Cela est le cas, par exemple, lorsque certains mots de la requête ne sont pas présents dans le vocabulaire de base du modèle issu de la phase d’apprentissage. Cette opération, permet de s’affranchir de ce problème via l’analyse sémantique des tokens constitutifs d’un mot inconnu ne figurant pas initialement dans les données d’entraînement du LLM, afin que l’IA puisse néanmoins en saisir le sens.
Réciproquement, la recomposition en sortie des tokens associés entre eux selon des lois probabilistes offre à l’IA la possibilité de former de nouveaux mots ne figurant pas initialement dans sa base de vocabulaire. Ce mécanisme permet une certaine créativité de la part de l’IA, donnant l’illusion de converser avec un être humain.
Déterminisme versus probabilisme
Contrairement aux algorithmes classiques qualifiés de déterministes [2], les grands modèles de langage qui s’appuient sur des réseaux de neurones profonds sont probabilistes. D’une manière simplifiée, en analysant les tokens qui précèdent dans un texte, ils tentent de prédire quel est le token qui a le plus de chance d’être le suivant. Cette spécificité, propice à la créativité, peut conduire, en revanche, à des réponses fausses ou complètement absurdes de leur part : on parle alors d’hallucinations ou de confabulations de l’IA. C’est par exemple le cas si une IA générative vous propose une phrase comme « La souris mange le chat ». Il est peu probable qu’un LLM génère cette phrase mais cela est néanmoins statistiquement possible.
Afin d’illustrer concrètement cela, allons sur la plateforme IA générative de textes de Vittascience et demandons au « VittaBot » la suite de la phrase « Marly-le-Roi est ... ».

Interface de VittaBot - Transciption
Moi : Marly-le-Roi est ...
VittaBot : Marly-le-Roi est une ville située dans le département des Yvelines, en région Ile-de-France. Elle se trouve à l’ouest de Paris et compte environ 16000 habitants. Marly-le-Roi est réputée pour son château, qui a été le résidence de nombreux rois de France, notamment Louis XIV. Aujourd’hui, le château est ouvert au public et accueille des expositions et des évènements culturels. La ville est également entourée de nombreux espaces verts.
Par défaut, l’interface montre la couleur de fond derrière chacun des tokens : celle-ci donne un indice sur leur probabilité respective. Le vert signale une forte probabilité alors que le rouge une faible. En cliquant sur un token on peut accéder à sa probabilité. Plusieurs d’entre eux ont une probabilité de 100 % : Ile-de-France, Yvelines... Avec une valeur de température de 0,5 (50 %), le modèle de LLM Mistral de la startup française Mistral AI, fournit des tokens dont la couleur de fond dominante est verte. Pour des valeurs plus élevées de la température, on trouve de plus en plus de tokens sur fond rouge.
En résumé, retenons que le paramètre appelé température détermine à quel point le modèle LLM sera plus ou moins créatif au niveau des réponses qu’il fournira. Le LLM, à partir d’une série de tokens, va choisir le suivant en analysant les probabilités distribuées à travers tous les tokens qui composent le vocabulaire du modèle. Un paramètre de température élevé (de 0,7 à 1) permet au modèle LLM de produire des résultats plus aléatoires donc plus créatifs mais avec un risque d’hallucination accru. Un paramètre de température plus bas (0 à 0,3) fournira, quant à lui, des réponses plus prévisibles et cohérentes.
Lors de l’utilisation d’une IA générative, il est donc important de trouver le bon équilibre entre créativité et précision en fonction des besoins spécifiques recherchés.