Intelligence artificielle : une nouvelle génération de termes

« Dans un contexte où l’intelligence artificielle transforme de nombreux secteurs – de la santé à la finance, en passant par l'éducation et les transports – il est essentiel que la langue française puisse refléter ces avancées technologiques. Les nouveaux termes permettent non seulement de mieux comprendre les concepts liés à l'IA, mais aussi de les rendre accessibles à un public plus large. En utilisant un vocabulaire français adapté, les chercheurs, les professionnels et les utilisateurs peuvent communiquer plus efficacement, tout en contribuant à la vitalité de notre langue. » Ces quelques lignes produites par ChatGPT* témoignent des capacités exponentielles de l’intelligence artificielle (IA), qui fait d’ailleurs l’objet d’une stratégie nationale depuis 2018. Découvrez les concepts définis par les experts du numérique et publiés au Journal officiel du 6 septembre 2024.

 

Cette liste est consacrée à l’IA générative (GenAI, generative AI), la branche de l’intelligence artificielle qui vise à produire des contenus textuels, graphiques ou audiovisuels. Les termes en présence nous renseignent sur différents aspects : les processus d’apprentissage, les modèles, et les domaines d’application.

 

L’apprentissage

Les experts définissent ici deux types d’apprentissage automatique :

– l’apprentissage antagoniste (adversarial machine learning, AML), qui consiste à entraîner un modèle à partir d’un jeu de données comprenant des données trompeuses ou ambiguës, ce qui lui apprend par exemple à reconnaître des infox vidéo ;

– l’apprentissage par transfert (transfer learning) : il s’agit de transférer les connaissances acquises dans un domaine à un autre domaine cible ;

Le néologisme transformeur (transformer) désigne pour sa part un réseau de neurones artificiels qui réalise un traitement parallèle des données d’entraînement afin de développer un modèle génératif.

 

Les modèles

Ce modèle génératif (deep generative model, foundation model, generative model) est destiné à être appliqué à une tâche de génération de données (texte, image, son) comparables à celles de son jeu de données d’entraînement. Voici deux sortes de modèles génératifs :

– le modèle à bruit statistique (diffusion [probabilistic] model, latent diffusion model), au cours duquel est supprimé le bruit statistique pour produire de nouveaux contenus graphiques ou audio ;

– le grand modèle de langage ou GML (large language model, LLM), qui calcule des probabilités des enchaînements de jetons textuels (text token) afin de produire automatiquement du texte ou du code informatique. Les experts préfèrent parler de « langage » plutôt que de « langue », car il ne s’agit pas seulement de langue naturelle mais aussi de séquences de symboles de tous ordres.

Enfin, le modèle préentraîné (pretrained model), accompagné de sa notice (model card), est conçu pour être réutilisé dans une grande variété de tâches. Il est ainsi nommé parce qu’il subit un premier entraînement généraliste sur un grand volume de données, avant un second entraînement plus spécifique. ChatGPT est un exemple de service élaboré à partir d’un modèle préentraîné, en l’occurrence pour en faire un dialogueur.

 

Les applications

Ainsi, grâce à ces modèles, l’intelligence artificielle permet de produire automatiquement divers contenus, toujours en réponse à une instruction (prompt) donnée par l’utilisateur, terme que les experts proposent de préférer à « invite ».

Le grand modèle de langage rend possible la génération automatique de texte (AI text generation, automatic text generation), utilisée dans le chapeau de ce texte, tandis que la génération automatique d’image (AI image generation, image-to-image, text-to-image) et la génération automatique d’audio (AI audio generation) sont le plus souvent réalisées grâce à un modèle à bruit statistique.

 

Pour en savoir plus, n’hésitez pas à consulter les fiches de ces termes, élaborées bien sûr sans recours à l’intelligence artificielle !

 

* l’instruction donnée était : « Écrire un texte de présentation des nouveaux termes de l'intelligence artificielle publiés par la Commission d'enrichissement de la langue française ».