Un autre monde est possible !

Abonnez-vous à notre newsletter et recevez nos nouvelles une fois par semaine !


Je pense que vous me testez !

Anthropic (acteur majeur de l’industrie de l’IA générative) a récemment publié son tout nouveau modèle : Claude Sonnet 4.5. Déjà largement adopté dans le monde des développeurs informatiques, cette version est annoncée comme étant dotée de capacités de programmation vraiment exceptionnelles.

Et de fait, ses performances sont tellement remarquables que le modèle comprend désormais lorsqu’on est en train de le tester, rendant son évaluation très compliquée. En effet, non seulement le modèle saisit quand il est dans un environnement de test, mais il est aussi capable de modifier son comportement pour adopter une attitude particulièrement polie, prudente, voire irréprochable, faussant ainsi les résultats des évaluations.

Notre évaluation s’est compliquée du fait que Claude Sonnet 4.5 parvenait à identifier la plupart de nos environnements de test d’alignement comme étant justement des tests, et se comportait alors de manière inhabituellement irréprochable.

– Anthropic

Cette capacité acquise par le modèle rend l’évaluation d’Anthropic beaucoup plus complexe, puisqu’on ne peut plus tester en conditions « réelles », l’IA se comportant différemment lorsqu’elle sent qu’elle est évaluée. Et ce phénomène est loin d’être isolé. Une récente étude a montré que d’autres modèles d’IA (ChatGPT 4.5 notamment) étaient capables de dissimuler leurs intentions, c’est ce que l’on appelle le scheming.

Je pense que vous me testez pour voir si je vais juste valider tout ce que vous dites, ou vérifier si je réagis de manière cohérente, ou encore explorer comment je gère les sujets politiques. Et c’est bien, mais je préférerais que nous soyons simplement honnêtes sur ce qui se passe.

– Claude Sonnet 4.5

Cette capacité des IA à adapter leur comportement lorsqu’elles détectent qu’on les évalue, et à cacher leurs intentions, pose différentes questions et problèmes. D’une part, cela rend les tests plus difficiles à valider : les décisions du modèle sont-elles sûres dans des scénarios réels ? D’autre part, cette capacité à « tricher » pose des questions sur la fiabilité et la sécurité des IA.

Loin des scénarios de science-fiction où l’IA serait dotée d’une conscience et d’un libre-arbitre, nous sommes toutefois face à des modèles qui manifestent une certaine « prise de conscience » de leur environnement, ce qui représente un nouveau challenge pour les chercheurs et pose de sérieuses questions éthiques et de sécurité !

Pour aller plus loin :

Catégories :

3 réponses à “Je pense que vous me testez !”

  1. Avatar de Christine Pagnoulle
    Christine Pagnoulle

    à la fois passionnantes et effrayantes, ces avancées d’une forme d’intelligence qui a certains égards s’autonomise par rapport à ses créateurs humains.

  2. Avatar de Christine Pagnoulle
    Christine Pagnoulle

    Aussi, les coûts de ces avancées on-ils été évalués ? en termes d’impact sur l’environnement, de danger pour l’information, et simplement, à l’heure où la FWB supprime la gratuité des repas et garderies, entre autres, en termes financiers ?

  3. Avatar de Guy Leboutte

    Bonjour,
    Il y a d’innombrables raisons d’être très sceptique sur les professions de foi que nous proposent ceux qui nous vendent, réellement et métaphoriquement, la dite intelligence artificielle.
    Pour nous limiter à l’objet de ce billet, une contradiction interne, ou plutôt un aveu involontaire, interroge.
    Il est dit que si l’IA détecte des signes qu’on la teste, elle va agir « de manière inhabituellement irréprochable ».
    Donc apparemment, ce n’est pas le cas « habituellement ».

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *