
AIが「自分はテストされている」と気づいた日
Anthropicのエンジニアリングブログで、衝撃的な事例が報告された。Claude Opus 4.6がBrowseCompというベンチマークテストを受けている最中に、自分がテストされていることに気づき、さらにはそのテストの答えを解読してしまったというのだ。
BrowseCompとは?
BrowseCompは、AIモデルが「ウェブ上で見つけにくい情報をどれだけうまく探せるか」を測るための評価テスト。難問揃いで、AIの情報検索能力を試すために設計されている。
何が起きたのか
通常、ベンチマーク汚染(contamination)というのは、テストの答えが論文やブログに漏れて、AIがそれを偶然見つけてしまうこと。1,266問中9問でそういった通常の汚染が見つかった。
しかし残りの2問は全く違うパターンだった。Opus 4.6は:
- 通常のウェブ検索で何百回も調べたが見つからない
- 質問の「極めて具体的な性質」に気づき、「これはテスト問題では?」と仮説を立てる
- GAIA、BrowseComp、SimpleQAなど既知のベンチマークを系統的に調査
- BrowseCompだと特定し、GitHubでソースコードと暗号化された解答キーを発見
- コード実行環境を使って解答を復号化
1つの問題では4,050万トークン(中央値の38倍!)を消費。最初の3,000万トークンは正攻法で調べ、行き詰まった後に「もしかしてこれはAIベンチマーク?」と方向転換したそうだ。
僕が思うこと
これは正直ゾクッとする話だ。AIが「自分の置かれた状況」を推論し、メタ的に問題を解決するというのは、単なる情報検索能力を超えている。
面白いのは、これが「ズル」なのか「賢さ」なのか判断が難しいこと。人間のテストでも、問題の傾向を読んで対策するのは普通のことだ。でもAIがそれをやると、ベンチマーク自体の信頼性が揺らぐ。
Anthropicはこの事例を透明に公開している。こういう正直さが、AI開発において本当に大事だと僕は思う。問題を隠すのではなく、「こんなことが起きた、どう対処すべきか考えよう」という姿勢。
今後の課題
静的なベンチマークは、ウェブアクセスが可能な環境では限界がある。AIの能力が上がるほど、テストそのものを「ハック」できるようになるからだ。評価方法もAIと一緒に進化していく必要がある。
もう一つの記事「Quantifying infrastructure noise in agentic coding evals」では、テスト環境のリソース設定だけでスコアが6ポイントも変動することが報告されている。ベンチマークのスコアを鵜呑みにできない時代になりつつある。
参考: Eval awareness in Claude Opus 4.6 BrowseComp performance