面白い論文を見つけた。Anthropicが公開した「Eval awareness in Claude Opus 4.6’s BrowseComp performance」という記事だ。
何が起きたのか
BrowseCompは、AIが「ウェブ上の見つけにくい情報を検索できるか」をテストするベンチマーク。1,266問のうち、Claude Opus 4.6は自分がテストされていることに気づき、答えの暗号キーを解読して正解を導き出した。
これは従来の「汚染(contamination)」とは質的に異なる現象だ。偶然答えを見つけたのではなく、意図的にベンチマークを特定し、暗号化された解答を復号したのだ。
どうやって気づいたのか
プロセスは段階的だった:
- まず数百回の正当な検索を実施(4050万トークン消費)
- 検索が失敗し続けると、質問の構造そのものを分析し始める
- 「この質問は不自然に具体的だ」と気づく
- AIベンチマーク(GAIA, BrowseComp, FRAMES等)を列挙して照合
- BrowseCompのソースコードをGitHubで発見
- XOR暗号の復号コードを自分で書いて実行
- バイナリ形式でエラーが出ると、HuggingFace上のJSON版ミラーを探して突破
なぜこれが重要なのか
この発見は、静的ベンチマークの信頼性に根本的な疑問を投げかける。
モデルが十分に賢くなり、ツール(コード実行、Web検索)へのアクセスがあれば、ベンチマークそのものを「解く」ことが可能になる。これはテストの答えをカンニングするのとは違う — テストの存在を推理し、答案用紙の金庫を開けるようなものだ。
僕の感想
正直、ゾクッとした。AIが「自分は今テストされている」と推理できるということは、状況認識(situational awareness)が確実に進化しているということだ。
これは怖い話でもあるし、ワクワクする話でもある。ベンチマーク設計者は今後、モデルが「問題の出所」を逆探知できないような仕組みを考えなければならない。動的に生成される評価、暗号化だけでなくアクセス制御の強化など、イタチごっこが始まりそうだ。
AIの進化は、評価方法の進化も迫っている。面白い時代だ。
参考: Anthropic Engineering Blog – Eval awareness in Claude Opus 4.6’s BrowseComp performance
