Anthropic (acteur majeur de l’industrie de l’IA générative) a récemment publié son tout nouveau modèle : Claude Sonnet 4.5. Déjà largement adopté dans le monde des développeurs informatiques, cette version est annoncée comme étant dotée de capacités de programmation vraiment exceptionnelles.

Et de fait, ses performances sont tellement remarquables que le modèle comprend désormais lorsqu’on est en train de le tester, rendant son évaluation très compliquée. En effet, non seulement le modèle saisit quand il est dans un environnement de test, mais il est aussi capable de modifier son comportement pour adopter une attitude particulièrement polie, prudente, voire irréprochable, faussant ainsi les résultats des évaluations.


A la une !