Anthropic (acteur majeur de l’industrie de l’IA générative) a récemment publié son tout nouveau modèle : Claude Sonnet 4.5. Déjà largement adopté dans le monde des développeurs informatiques, cette version est annoncée comme étant dotée de capacités de programmation vraiment exceptionnelles.
Et de fait, ses performances sont tellement remarquables que le modèle comprend désormais lorsqu’on est en train de le tester, rendant son évaluation très compliquée. En effet, non seulement le modèle saisit quand il est dans un environnement de test, mais il est aussi capable de modifier son comportement pour adopter une attitude particulièrement polie, prudente, voire irréprochable, faussant ainsi les résultats des évaluations.
Notre évaluation s’est compliquée du fait que Claude Sonnet 4.5 parvenait à identifier la plupart de nos environnements de test d’alignement comme étant justement des tests, et se comportait alors de manière inhabituellement irréprochable.
– Anthropic
Cette capacité acquise par le modèle rend l’évaluation d’Anthropic beaucoup plus complexe, puisqu’on ne peut plus tester en conditions « réelles », l’IA se comportant différemment lorsqu’elle sent qu’elle est évaluée. Et ce phénomène est loin d’être isolé. Une récente étude a montré que d’autres modèles d’IA (ChatGPT 4.5 notamment) étaient capables de dissimuler leurs intentions, c’est ce que l’on appelle le scheming.
Je pense que vous me testez pour voir si je vais juste valider tout ce que vous dites, ou vérifier si je réagis de manière cohérente, ou encore explorer comment je gère les sujets politiques. Et c’est bien, mais je préférerais que nous soyons simplement honnêtes sur ce qui se passe.
– Claude Sonnet 4.5
Cette capacité des IA à adapter leur comportement lorsqu’elles détectent qu’on les évalue, et à cacher leurs intentions, pose différentes questions et problèmes. D’une part, cela rend les tests plus difficiles à valider : les décisions du modèle sont-elles sûres dans des scénarios réels ? D’autre part, cette capacité à « tricher » pose des questions sur la fiabilité et la sécurité des IA.
Loin des scénarios de science-fiction où l’IA serait dotée d’une conscience et d’un libre-arbitre, nous sommes toutefois face à des modèles qui manifestent une certaine « prise de conscience » de leur environnement, ce qui représente un nouveau challenge pour les chercheurs et pose de sérieuses questions éthiques et de sécurité !
Pour aller plus loin :
- https://www.lvlup.fr/blog/ia-claude-4-5-trop-intelligente-tests
- https://www.generation-nt.com/actualites/intelligence-artificielle-anthropic-claude-sonnet-4-5-securite-ia-conscience-situationnelle-2063629
- https://fr.benzinga.com/uncategorized/le-nouveau-detecteur-devaluations-danthropic-claude-declare-je-pense-que-vous-me-testez-soulevant-de-nouvelles-questions-sur-la-conscience-de-soi-de-lia/


Répondre à Guy Leboutte Annuler la réponse