[IA : ép. 2] Quand l’IA se mord la queue

[Pour ce texte à propos de Madame IA, la forme féminine sera utilisée, quand le choix se pose.]

Dans notre épisode précédent, nous avons vu qu’il était difficile de se projeter dans l’avenir quant à l’impact de l’IA sur l’emploi. Alors que, comme ce fut le cas pour la robotisation, certaines redoutent que l’intelligence artificielle ne remplace le travail humain, d’autres affirment qu’elle va être la source de très nombreux nouveaux emplois et qu’il s’agira même d’emplois qualifiés.

Nous le constatons, dans ce domaine nous fonçons tête baissée, sans penser réellement à toutes les implications et conséquences de l’utilisation en masse de cette nouvelle technologie. Mais, au fil de ses avancées et de son utilisation croissante par un nombre toujours plus grand d’utilisatrices, elle se trouve confrontée à un problème de taille : elle se mord la queue ! Et j’y vois deux aspects différents mais toutefois liés : l’IA contre-attaque et le syndrome de la vache folle. Tout un programme !

L’IA contre-attaque… l’IA

Avec les grands modèles de langage (LLM – sur lesquels est basé ChatGPT par exemple) et les autres technologies de l’IA, s’est ouverte la possibilité de créer des contenus de toutes sortes : textes, images, vidéos, musique,… Mais ceux-ci permettent aussi de créer, sans vouloir être exhaustif, des robots conversationnels ou encore des attaques informatiques sophistiquées.

Ces créations, aussi fascinantes qu’elles puissent être, ont rapidement posé des soucis de plagiat (enseignement, domaines artistique, littéraire,…), d’usurpation d’identité (on se rappelle cet employé d’un centre financier à Hong Kong qui a versé 26 millions de dollars à des escrocs, trompé par une fausse visioconférence),…

Il a donc fallu créer des IA qui soient capables de reconnaître des contenus ayant été créé par d’autres IA et de se protéger contre les attaques qu’elles peuvent aider à mettre sur pied. Dans le domaine de l’éducation, par exemple, des outils ont été construits pour les enseignantes afin de détecter les contenus générés par une IA. Les faux positifs (contenus détectés comme ayant été générés par une IA alors qu’ils ne le sont pas) ne sont cependant pas rares, ce qui est très problématique. On constate la même chose dans le domaine informatique où des IA sont créées pour contrer les IA qui produisent des cyberattaques, mais aussi dans le domaine artistique (détection de plagiat) ou encore de l’information (détection de deepfake).

Si on se hasarde à considérer l’intelligence artificielle comme une seule entité (puisqu’il y a en fait une multitude d’IA et de technologies différentes), l’image du serpent qui se mord la queue vient assez vite à l’esprit : l’intelligence artificielle se voit en effet forcée de traquer les contenus qu’elle a précédemment créés.

Le syndrome de la vache folle

L’autre versant de ce mouvement cannibale touche plus à l’essence même de l’intelligence artificielle et en particulier l’IA générative (qui génère des contenus en réponse à des requêtes). Pour fonctionner, l’IA générative doit en effet être alimentée par des contenus, on parle d’entraînement. Les grands modèles de l’intelligence artificielle (de langage mais aussi les modèles qui génèrent les images entre autres) sont ainsi en évolution perpétuelle en fonction de ces contenus dont on les abreuve. Or, au fur et à mesure de leur utilisation croissante, des données de plus en plus nombreuses, qui sont injectées dans ces modèles pour les entraîner, sont « synthétiques » (générées par IA). Un modèle comme ChatGPT par exemple, se nourrit en effet de contenu qu’il va chercher sur internet, lequel est inondé de contenus synthétiques. Les IA « apprennent » alors sur base de contenus qu’elles ont elles-mêmes générés ! C’est ce que les informaticiennes appellent la « boucle de rétroaction » mais d’autres font aussi référence au syndrome de la vache folle en nommant ce phénomène MAD (« fou » en anglais). Cette maladie apparaît en effet chez des bovins qui ont consommé de la matière cérébrale de leurs congénères. Cette boucle de rétroaction pourrait entraîner un effondrement du modèle.

Selon Sina Alemohammad, chercheur en Machine Learning : « Imaginez que vous disposiez d’un milliard d’éléments de données naturelles et d’un seul élément de données synthétiques. Dans ce cas, le phénomène MAD ne se manifestera pas. Cependant, un an plus tard, si le volume de données synthétiques atteint le milliard, il est certain qu’en cinq itérations, le système basculera dans l’état MAD »

Le principal problème de ce mécanisme est l’apparition d’erreurs dans les contenus re-injectés dans les modèles. Les grands modèles de langage ne sont (très schématiquement) que des algorithmes qui fournissent la réponse la plus statistiquement correcte, en fonction des données sur lesquelles ils ont été entraînés. Ainsi, si on demande à ChatGPT si ses réponses sont toujours correctes, elle répond : « Je fais de mon mieux pour fournir des réponses précises, mais il peut arriver que certaines informations soient inexactes ou dépassées. » S’il fallait encore le démontrer, les contenus synthétiques ne sont donc pas fiables mais ils alimentent pourtant abondamment les modèles, ce qui pourrait amener à une spirale infinie d’inexactitudes. Une étude récente a d’ailleurs déjà démontré qu’une IA entraînée sur des données synthétiques fournissait, après peu de temps, des réponses incompréhensibles.

Le défi est donc maintenant de détecter les contenus synthétiques pour ne pas les ré-injecter dans les modèles d’IA et détériorer ses résultats. Nous en revenons donc à notre premier point où une IA est forcée de traquer ses propres contenus et ceux des autres IA pour ne pas être contaminée. Je terminerai en caricaturant ce phénomène comme ceci : plus une intelligence artificielle apprend plus elle devient ignorante (si on ne prend pas garde aux données d’entraînement).

Références :

https://www.telegraph.co.uk/business/2024/02/01/why-ai-new-age-of-fake-news-and-disinformation/

https://futurism.com/ai-trained-ai-generated-data-interview

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *