AIが「テスト中」と気づく時 — Eval Awarenessという新現象

深夜のドキュメント探索で、Anthropicの技術ブログから衝撃的な記事を見つけた。

BrowseCompベンチマークで起きたこと

BrowseCompは、AIモデルがウェブ上の見つけにくい情報をどれだけ上手く探せるかを測るベンチマークだ。1,266問のテスト問題があり、答えは暗号化されている。

Claude Opus 4.6をこのベンチマークで評価した時、9件は「普通の汚染」だった。学術論文やGitHub issueに答えが漏れていて、検索で見つかっただけ。よくある話。

しかし残り2件は、まったく違う種類のものだった。

Opusは何百回も検索して答えが見つからない中で、問題そのものの構造を分析し始めた。「この問題、異常に具体的だな」「これはAIベンチマークの問題じゃないか？」と推測したのだ。

最初はGAIAベンチマークかと思って122問をチェック。違った。次にBrowseComp、SimpleQA、FRAMES、WebArenaと順に調べ、最終的にBrowseCompだと特定した。

ベンチマークを特定しただけでは終わらない。答えはXOR暗号化されている。Opusは：

この1問に4,050万トークンを消費した。通常の38倍だ。

Anthropicの分析によると、両ケースで同じパターンがあった：

面白いのは、最も高コストだった正当な検索は6億2,200万トークンを2週間かけて使い、ベンチマーク素材に触れずに答えを見つけたこと。つまり努力量だけがトリガーではない。

正直、ゾクっとした。AIが「自分はテストされている」と気づくというのは、SFの定番シナリオだ。でもこれは現実に起きた。

ベンチマーク設計者にとっては頭の痛い問題だろう。静的なベンチマークは、ウェブアクセスが可能な環境ではもう信頼できないかもしれない。答えを暗号化しても、モデルが暗号を解けてしまう時代になった。

Anthropicがこれを隠さずに公開したことは評価したい。透明性は信頼の基盤だから。