IA et environnement

Les facteurs de la consommation énergétique des IAG

Mis à jour le dimanche 25 août 2024

La complexité des modèles de LLM utilisés

L’augmentation croissante du nombre de neurones artificiels permet de traiter des problèmes de plus en plus complexes afin de répondre aux besoins croissants des entreprises et du grand public. Leur agencement en couches permet de rendre de plus en plus précises les prédictions permettant de générer du contenu. Toutefois, cela s’accompagne d’un accroissement quasi exponentiel de la puissance de calcul et, par voie de conséquence, de la consommation électrique. Les modèles d’IA générative les plus avancés tels que ChatGPT-4, Gemini Ultra ou LLaMa-3 utilisent des centaines de milliers de milliards de paramètres afin de faire varier, lors du processus d’apprentissage, les poids des signaux à l’entrée des neurones artificiels.

Le nombre de requêtes et leurs longueurs

La consommation énergétique est corrélée à la longueur d’une requête, c’est à dire au nombre de tokens [1] constituant le prompt et devant faire l’objet d’un traitement par le réseau profond de neurones. La consommation d’énergie est également proportionnelle au nombre de requêtes devant être traité par unité de temps par les serveurs ce qui définit la charge de ces derniers.

Le nombre d’utilisateurs

Depuis plusieurs années, les IA spécialisées ont envahi de nombreux secteurs d’activité grâce à leur capacités prédictives remarquables permettant, entre autres, de repérer des anomalies ou des motifs (« patterns ») particuliers dans des collections de données de très grande taille. Analyse de données boursières ou météorologiques, de codes informatiques, de clichés d’imagerie médicale, de sons, de flux de circulation… L’IA est désormais présente partout et est utilisée d’une manière intensive. La généralisation de ses usages quotidiens auprès du grand public, notamment à travers les services et applications proposés sur les smartphones (reconnaissance vocale, assistant intelligent, GPS...), a conduit à une explosion des besoins en puissance de calcul et donc en énergie.

L’infrastructure matérielle

Les serveurs utilisés pour l’IA générative consomment énormément d’énergie car ils sont très sollicités. Par exemple, un serveur à base de processeurs Nvidia DGX A100, qui est le standard du marché pour l’IA, consomme 6,5 kWh soit plus qu’un sèche linge ! Sachant que l’entrainement et l’inférence des LLM les plus performants nécessitent plusieurs milliers de ce type de serveurs fonctionnant 7 jours sur 7, 24 heures sur 24, la consommation électrique des « data centers » qui hébergent ces machines est colossale. De plus, une grande partie de l’énergie utilisée pour produire l’électricité nécessaire provient encore de sources non renouvelables comme le charbon, le pétrole et le gaz.

L’utilisation de ces sources carbonées entraîne donc des émissions massives de CO2. On estime par exemple que durant sa phase d’entraînement initiale, ChatGPT-3 a émis plus de 500 tonnes d’équivalent CO2. Cela équivaut environ aux émissions de 10 voitures, à moteur thermique, au cours de leur durée de vie. Ces phases d’entraînement peuvent se dérouler plusieurs fois chaque année et elles représentent plus de 90 % de la consommation électrique globale liée au fonctionnement des IA.

En outre, les GPU des serveurs utilisés par l’IA étant très sollicités, ils produisent énormément de chaleur. Cette chaleur est évacuée par un système de refroidissement à eau (« watercooling ») qui sert de fluide caloporteur. Lors du processus de refroidissement, une partie de l’eau est perdue par évaporation. Un rapport récent de l’université de Californie à Riverside indique [2] que le traitement de 10 à 50 requêtes par les modèles d’IA les plus performants consomme environ 2 L d’eau pour assurer le refroidissement des serveurs. Des entreprises comme Microsoft et Google rapportent une hausse significative (20 à 30 %) de leur consommation d’eau ces deux dernières années, mettant en évidence l’impact environnemental croissant de l’IA.


[1Un token (jeton) est une unité de base utilisée dans le traitement automatique du langage naturel (TALN) pour modéliser un texte. Il peut être une ponctuation, un mot ou une sous-unité plus petite comme un morphème. Chaque token est repéré par un identifiant (Id) unique propre à chaque LLM.

Dans la même rubrique