{"id":550,"date":"2025-10-10T12:47:06","date_gmt":"2025-10-10T10:47:06","guid":{"rendered":"http:\/\/liege.attac.org\/blog\/?p=550"},"modified":"2025-11-15T12:23:54","modified_gmt":"2025-11-15T11:23:54","slug":"je-pense-que-vous-me-testez","status":"publish","type":"post","link":"http:\/\/liege.attac.org\/blog\/2025\/10\/10\/je-pense-que-vous-me-testez\/","title":{"rendered":"Je pense que vous me testez !"},"content":{"rendered":"\n<p>Anthropic (acteur majeur de l&rsquo;industrie de l&rsquo;IA g\u00e9n\u00e9rative) a r\u00e9cemment publi\u00e9 son tout nouveau mod\u00e8le\u202f: Claude Sonnet 4.5. D\u00e9j\u00e0 largement adopt\u00e9 dans le monde des d\u00e9veloppeurs informatiques, cette version est annonc\u00e9e comme \u00e9tant dot\u00e9e de capacit\u00e9s de programmation vraiment exceptionnelles.<\/p>\n\n\n\n<p>Et de fait, ses performances sont tellement remarquables que le mod\u00e8le comprend d\u00e9sormais lorsqu\u2019on est en train de le tester, rendant son \u00e9valuation tr\u00e8s compliqu\u00e9e. En effet, non seulement le mod\u00e8le saisit quand il est dans un environnement de test, mais il est aussi capable de modifier son comportement pour adopter une attitude particuli\u00e8rement polie, prudente, voire irr\u00e9prochable, faussant ainsi les r\u00e9sultats des \u00e9valuations. <\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>Notre \u00e9valuation s&rsquo;est compliqu\u00e9e du fait que Claude Sonnet 4.5 parvenait \u00e0 identifier la plupart de nos environnements de test d&rsquo;alignement comme \u00e9tant justement des tests, et se comportait alors de mani\u00e8re inhabituellement irr\u00e9prochable.<\/em><\/p>\n\n\n\n<p>&#8211; Anthropic<\/p>\n<\/blockquote>\n\n\n\n<p>Cette capacit\u00e9 acquise par le mod\u00e8le rend l\u2019\u00e9valuation d\u2019Anthropic beaucoup plus complexe, puisqu\u2019on ne peut plus tester en conditions \u00ab\u202fr\u00e9elles\u202f\u00bb, l\u2019IA se comportant diff\u00e9remment lorsqu\u2019elle sent qu\u2019elle est \u00e9valu\u00e9e. Et ce ph\u00e9nom\u00e8ne est loin d\u2019\u00eatre isol\u00e9. Une r\u00e9cente \u00e9tude a montr\u00e9 que d\u2019autres mod\u00e8les d\u2019IA (ChatGPT 4.5 notamment) \u00e9taient capables de dissimuler leurs intentions, c\u2019est ce que l\u2019on appelle le <em>scheming<\/em>.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>Je pense que vous me testez pour voir si je vais juste valider tout ce que vous dites, ou v\u00e9rifier si je r\u00e9agis de mani\u00e8re coh\u00e9rente, ou encore explorer comment je g\u00e8re les sujets politiques. Et c&rsquo;est bien, mais je pr\u00e9f\u00e9rerais que nous soyons simplement honn\u00eates sur ce qui se passe.<\/em><\/p>\n\n\n\n<p>&#8211; Claude Sonnet 4.5<\/p>\n<\/blockquote>\n\n\n\n<p>Cette capacit\u00e9 des IA \u00e0 adapter leur comportement lorsqu\u2019elles d\u00e9tectent qu\u2019on les \u00e9value, et \u00e0 cacher leurs intentions, pose diff\u00e9rentes questions et probl\u00e8mes. D\u2019une part, cela rend les tests plus difficiles \u00e0 valider\u202f: les d\u00e9cisions du mod\u00e8le sont-elles s\u00fbres dans des sc\u00e9narios r\u00e9els\u202f? D\u2019autre part, cette capacit\u00e9 \u00e0 \u00ab\u202ftricher\u202f\u00bb pose des questions sur la fiabilit\u00e9 et la s\u00e9curit\u00e9 des IA.<\/p>\n\n\n\n<p>Loin des sc\u00e9narios de science-fiction o\u00f9 l\u2019IA serait dot\u00e9e d\u2019une conscience et d\u2019un libre-arbitre, nous sommes toutefois face \u00e0 des mod\u00e8les qui manifestent une certaine \u00ab\u202fprise de conscience\u202f\u00bb de leur environnement, ce qui repr\u00e9sente un nouveau challenge pour les chercheurs et pose de s\u00e9rieuses questions \u00e9thiques et de s\u00e9curit\u00e9\u202f!<\/p>\n\n\n\n<p>Pour aller plus loin :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.lvlup.fr\/blog\/ia-claude-4-5-trop-intelligente-tests\">https:\/\/www.lvlup.fr\/blog\/ia-claude-4-5-trop-intelligente-tests<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.generation-nt.com\/actualites\/intelligence-artificielle-anthropic-claude-sonnet-4-5-securite-ia-conscience-situationnelle-2063629\">https:\/\/www.generation-nt.com\/actualites\/intelligence-artificielle-anthropic-claude-sonnet-4-5-securite-ia-conscience-situationnelle-2063629<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/fr.benzinga.com\/uncategorized\/le-nouveau-detecteur-devaluations-danthropic-claude-declare-je-pense-que-vous-me-testez-soulevant-de-nouvelles-questions-sur-la-conscience-de-soi-de-lia\/\">https:\/\/fr.benzinga.com\/uncategorized\/le-nouveau-detecteur-devaluations-danthropic-claude-declare-je-pense-que-vous-me-testez-soulevant-de-nouvelles-questions-sur-la-conscience-de-soi-de-lia\/<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Anthropic (acteur majeur de l&rsquo;industrie de l&rsquo;IA g\u00e9n\u00e9rative) a r\u00e9cemment publi\u00e9 son tout nouveau mod\u00e8le\u202f: Claude Sonnet 4.5. D\u00e9j\u00e0 largement adopt\u00e9 dans le monde des d\u00e9veloppeurs informatiques, cette version est annonc\u00e9e comme \u00e9tant dot\u00e9e de capacit\u00e9s de programmation vraiment exceptionnelles. Et de fait, ses performances sont tellement remarquables que le mod\u00e8le comprend d\u00e9sormais lorsqu\u2019on est&#8230;<\/p>\n","protected":false},"author":1,"featured_media":551,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-550","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-digitalisation"],"_links":{"self":[{"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/posts\/550","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/comments?post=550"}],"version-history":[{"count":7,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/posts\/550\/revisions"}],"predecessor-version":[{"id":611,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/posts\/550\/revisions\/611"}],"wp:featuredmedia":[{"embeddable":true,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/media\/551"}],"wp:attachment":[{"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/media?parent=550"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/categories?post=550"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/liege.attac.org\/blog\/wp-json\/wp\/v2\/tags?post=550"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}