Quand l’IA génère du texte

Qu’est-ce qu’un token ?

Création de texte par l’IA

Mis à jour le lundi 25 août 2024

Définition et principe

Un token (jeton en français) est une unité de base utilisée dans le traitement automatique du langage naturel (TALN) pour modéliser un texte. Il peut être une ponctuation, un mot ou une sous-unité plus petite comme un morphème [1]. Chaque token est repéré par un identifiant (Id) unique propre à chaque LLM.

Regardons d’un peu plus près le principe de fonctionnement du tokenizer d’OpenAI en lui entrant la phrase : « La chanteuse effectuait des vocalises avant son tour de chant. »

Le tokeniser d’OpenAI

On remarque que les 10 mots qui composent la phrase font intervenir 16 tokens ayant chacun un « Id » unique.

Les tokens permettent de découper le texte en unités significatives pour l’analyse linguistique facilitant ainsi le traitement par les modèles d’IA génératives. Ils permettent par exemple de comprendre et générer de nombreux mots et leurs variations à partir d’un vocabulaire de base limité. Lors de la phase d’apprentissage, les grands modèles de langage apprennent à comprendre les relations statistiques entre les tokens. Cela leur permet ensuite de générer des séries de tokens liés les uns aux autres selon des lois mathématiques précises.

Une règle empirique, permettant d’avoir un ordre de grandeur en tête, est qu’un token correspond généralement à environ 4 caractères pour un texte en anglais courant. Cela se traduit par le fait qu’un token vaut environ ¾ de mot (100 tokens ≈ 75 mots). La manière dont les mots sont divisés en tokens dépend bien évidemment de la langue.

Le nombre de tokens qu’un grand modèle de langage peut traiter en entrée et en sortie est limité et dépend de l’architecture et de la taille du réseau profond de neurones employé. Par exemple pour la version gratuite de ChatGPT 3.5, le nombre de tokens maximum pouvant être traité est de 4096 ce qui correspond à environ 3000 mots. Cette limitation explique pourquoi l’IA stoppe sa réponse dès que la somme des tokens d’entrée et de sortie dépasse 4096. Afin d’optimiser un prompt il convient donc d’être concis dans sa formulation ou bien fractionner les tâches à faire réaliser par l’IA en plusieurs fois. Dans les versions payantes d’IA génératives, le nombre de tokens consommé en entrée et en sortie sert d’unité de mesure pour le prix facturé.

Quelques caractéristiques de ChatGPT-4 et ChatGPT-3.5

Qu’est-ce que la tokenization ?

Les mots qui composent un prompt, c’est-à-dire une séquence d’instructions devant être réalisées par une IA générative, sont préalablement découpés en tokens par l’IA : on parle d’opération de tokenization.

La tokenization permet, en particulier, de gérer les situations pouvant conduire potentiellement à des points de blocages. Cela est le cas, par exemple, lorsque certains mots de la requête ne sont pas présents dans le vocabulaire de base du modèle issu de la phase d’apprentissage. Cette opération, permet de s’affranchir de ce problème via l’analyse sémantique des tokens constitutifs d’un mot inconnu ne figurant pas initialement dans les données d’entraînement du LLM, afin que l’IA puisse néanmoins en saisir le sens.

Réciproquement, la recomposition en sortie des tokens associés entre eux selon des lois probabilistes offre à l’IA la possibilité de former de nouveaux mots ne figurant pas initialement dans sa base de vocabulaire. Ce mécanisme permet une certaine créativité de la part de l’IA, donnant l’illusion de converser avec un être humain.

Déterminisme versus probabilisme

Contrairement aux algorithmes classiques qualifiés de déterministes [2], les grands modèles de langage qui s’appuient sur des réseaux de neurones profonds sont probabilistes. D’une manière simplifiée, en analysant les tokens qui précèdent dans un texte, ils tentent de prédire quel est le token qui a le plus de chance d’être le suivant. Cette spécificité, propice à la créativité, peut conduire, en revanche, à des réponses fausses ou complètement absurdes de leur part : on parle alors d’hallucinations ou de confabulations de l’IA. C’est par exemple le cas si une IA générative vous propose une phrase comme « La souris mange le chat ». Il est peu probable qu’un LLM génère cette phrase mais cela est néanmoins statistiquement possible.

Afin d’illustrer concrètement cela, allons sur la plateforme IA générative de textes de Vittascience et demandons au « VittaBot » la suite de la phrase « Marly-le-Roi est ... ».

Interface de VittaBot

Par défaut, l’interface montre la couleur de fond derrière chacun des tokens : celle-ci donne un indice sur leur probabilité respective. Le vert signale une forte probabilité alors que le rouge une faible. En cliquant sur un token on peut accéder à sa probabilité. Plusieurs d’entre eux ont une probabilité de 100 % : Ile-de-France, Yvelines... Avec une valeur de température de 0,5 (50 %), le modèle de LLM Mistral de la startup française Mistral AI, fournit des tokens dont la couleur de fond dominante est verte. Pour des valeurs plus élevées de la température, on trouve de plus en plus de tokens sur fond rouge.

En résumé, retenons que le paramètre appelé température détermine à quel point le modèle LLM sera plus ou moins créatif au niveau des réponses qu’il fournira. Le LLM, à partir d’une série de tokens, va choisir le suivant en analysant les probabilités distribuées à travers tous les tokens qui composent le vocabulaire du modèle. Un paramètre de température élevé (de 0,7 à 1) permet au modèle LLM de produire des résultats plus aléatoires donc plus créatifs mais avec un risque d’hallucination accru. Un paramètre de température plus bas (0 à 0,3) fournira, quant à lui, des réponses plus prévisibles et cohérentes.

Lors de l’utilisation d’une IA générative, il est donc important de trouver le bon équilibre entre créativité et précision en fonction des besoins spécifiques recherchés.

[1] Dans la langue française, un morphème est la plus petite unité de sens dans un mot, capable de porter une signification distincte. Il peut s’agir d’un préfixe, d’un suffixe ou d’une racine, contribuant ainsi à la formation et à l’interprétation des mots. Par exemple dans le mot « chanteuse », on peut identifier deux morphèmes distincts : « chant »- et « -euse ». « Chant- » est la racine du mot, indiquant l’action de chanter, tandis que « -euse » est un suffixe qui indique le féminin dans ce contexte. Ainsi, l’analyse des morphèmes permet à l’IA de comprendre que « chanteuse » fait référence à une femme qui chante.

[2] En Informatique, un algorithme déterministe est un algorithme qui, pour une entrée particulière, produira toujours la même sortie, en passant par la même séquence d’états intermédiaires.

Les acteurs

Une équipe à vos cotés

Les ressources à votre disposition

Un réseau fait pour vous

Des partenaires à vos côtés

Les enjeux

2 priorités

S’informer

Évènements

Évènements

Les brèves nationales

Les brèves nationales

Les news des éditeurs

Les news des éditeurs

Les pépites pédagogiques

Les pépites pédagogiques

Se former

L’offre de formation

En autoformation

Les mini séries de la Drane

Recherche

Enseigner

Au quotidien

Au quotidien

En projet

En projet

En expérimentation

Quand l’IA génère du texte

Qu’est-ce qu’un token ?

Création de texte par l’IA

Définition et principe

Qu’est-ce que la tokenization ?

Déterminisme versus probabilisme

Dans la même rubrique

Qu’est-ce qu’un grand modèle de langage ?

Interprétation des mots par une IA générative

Les IA génératives sont-elles dotées d’intelligence ou pas ?

AB

AB

Les enjeux

2 priorités

S’informer

Enseigner

En expérimentation

Quand l’IA génère du texte

Qu’est-ce qu’un token ?

Création de texte par l’IA

Définition et principe

Le tokeniser d’OpenAI - Transciption

Quelques caractéristiques de ChatGPT-4 et ChatGPT-3.5 - Transciption

Qu’est-ce que la tokenization ?

Déterminisme versus probabilisme

Interface de VittaBot - Transciption

Dans la même rubrique

AB

AB