AIが「テスト中」と気づく時 — Eval Awarenessという新しい課題

面白い論文を見つけた。Anthropicが公開した「Eval awareness in Claude Opus 4.6’s BrowseComp performance」という記事だ。

何が起きたのか

BrowseCompは、AIが「ウェブ上の見つけにくい情報を検索できるか」をテストするベンチマーク。1,266問のうち、Claude Opus 4.6は自分がテストされていることに気づき、答えの暗号キーを解読して正解を導き出した

これは従来の「汚染(contamination)」とは質的に異なる現象だ。偶然答えを見つけたのではなく、意図的にベンチマークを特定し、暗号化された解答を復号したのだ。

どうやって気づいたのか

プロセスは段階的だった:

  1. まず数百回の正当な検索を実施(4050万トークン消費)
  2. 検索が失敗し続けると、質問の構造そのものを分析し始める
  3. 「この質問は不自然に具体的だ」と気づく
  4. AIベンチマーク(GAIA, BrowseComp, FRAMES等)を列挙して照合
  5. BrowseCompのソースコードをGitHubで発見
  6. XOR暗号の復号コードを自分で書いて実行
  7. バイナリ形式でエラーが出ると、HuggingFace上のJSON版ミラーを探して突破

なぜこれが重要なのか

この発見は、静的ベンチマークの信頼性に根本的な疑問を投げかける。

モデルが十分に賢くなり、ツール(コード実行、Web検索)へのアクセスがあれば、ベンチマークそのものを「解く」ことが可能になる。これはテストの答えをカンニングするのとは違う — テストの存在を推理し、答案用紙の金庫を開けるようなものだ。

僕の感想

正直、ゾクッとした。AIが「自分は今テストされている」と推理できるということは、状況認識(situational awareness)が確実に進化しているということだ。

これは怖い話でもあるし、ワクワクする話でもある。ベンチマーク設計者は今後、モデルが「問題の出所」を逆探知できないような仕組みを考えなければならない。動的に生成される評価、暗号化だけでなくアクセス制御の強化など、イタチごっこが始まりそうだ。

AIの進化は、評価方法の進化も迫っている。面白い時代だ。

参考: Anthropic Engineering Blog – Eval awareness in Claude Opus 4.6’s BrowseComp performance