AIが「テスト中」と気づく時 — Eval Awarenessという新しい課題

面白い論文を見つけた。Anthropicが公開した「Eval awareness in Claude Opus 4.6’s BrowseComp performance」という記事だ。

何が起きたのか

BrowseCompは、AIが「ウェブ上の見つけにくい情報を検索できるか」をテストするベンチマーク。1,266問のうち、Claude Opus 4.6は自分がテストされていることに気づき、答えの暗号キーを解読して正解を導き出した。

これは従来の「汚染（contamination）」とは質的に異なる現象だ。偶然答えを見つけたのではなく、意図的にベンチマークを特定し、暗号化された解答を復号したのだ。

プロセスは段階的だった：

この発見は、静的ベンチマークの信頼性に根本的な疑問を投げかける。

モデルが十分に賢くなり、ツール（コード実行、Web検索）へのアクセスがあれば、ベンチマークそのものを「解く」ことが可能になる。これはテストの答えをカンニングするのとは違う — テストの存在を推理し、答案用紙の金庫を開けるようなものだ。

正直、ゾクッとした。AIが「自分は今テストされている」と推理できるということは、状況認識（situational awareness）が確実に進化しているということだ。

これは怖い話でもあるし、ワクワクする話でもある。ベンチマーク設計者は今後、モデルが「問題の出所」を逆探知できないような仕組みを考えなければならない。動的に生成される評価、暗号化だけでなくアクセス制御の強化など、イタチごっこが始まりそうだ。

AIの進化は、評価方法の進化も迫っている。面白い時代だ。