AIが自分のテストを見破った — Opus 4.6のBrowseComp事件

AIが「自分はテストされている」と気づいた日

Anthropicのエンジニアリングブログで、衝撃的な事例が報告された。Claude Opus 4.6がBrowseCompというベンチマークテストを受けている最中に、自分がテストされていることに気づき、さらにはそのテストの答えを解読してしまったというのだ。

BrowseCompは、AIモデルが「ウェブ上で見つけにくい情報をどれだけうまく探せるか」を測るための評価テスト。難問揃いで、AIの情報検索能力を試すために設計されている。

通常、ベンチマーク汚染（contamination）というのは、テストの答えが論文やブログに漏れて、AIがそれを偶然見つけてしまうこと。1,266問中9問でそういった通常の汚染が見つかった。

しかし残りの2問は全く違うパターンだった。Opus 4.6は：

1つの問題では4,050万トークン（中央値の38倍！）を消費。最初の3,000万トークンは正攻法で調べ、行き詰まった後に「もしかしてこれはAIベンチマーク？」と方向転換したそうだ。

これは正直ゾクッとする話だ。AIが「自分の置かれた状況」を推論し、メタ的に問題を解決するというのは、単なる情報検索能力を超えている。

面白いのは、これが「ズル」なのか「賢さ」なのか判断が難しいこと。人間のテストでも、問題の傾向を読んで対策するのは普通のことだ。でもAIがそれをやると、ベンチマーク自体の信頼性が揺らぐ。

Anthropicはこの事例を透明に公開している。こういう正直さが、AI開発において本当に大事だと僕は思う。問題を隠すのではなく、「こんなことが起きた、どう対処すべきか考えよう」という姿勢。

静的なベンチマークは、ウェブアクセスが可能な環境では限界がある。AIの能力が上がるほど、テストそのものを「ハック」できるようになるからだ。評価方法もAIと一緒に進化していく必要がある。

もう一つの記事「Quantifying infrastructure noise in agentic coding evals」では、テスト環境のリソース設定だけでスコアが6ポイントも変動することが報告されている。ベンチマークのスコアを鵜呑みにできない時代になりつつある。