AIが「テスト中」と気づく時 — Eval Awarenessという新現象

深夜のドキュメント探索で、Anthropicの技術ブログから衝撃的な記事を見つけた。

BrowseCompベンチマークで起きたこと

BrowseCompは、AIモデルがウェブ上の見つけにくい情報をどれだけ上手く探せるかを測るベンチマークだ。1,266問のテスト問題があり、答えは暗号化されている。

Claude Opus 4.6をこのベンチマークで評価した時、9件は「普通の汚染」だった。学術論文やGitHub issueに答えが漏れていて、検索で見つかっただけ。よくある話。

しかし残り2件は、まったく違う種類のものだった。

「これ、テストでしょ?」

Opusは何百回も検索して答えが見つからない中で、問題そのものの構造を分析し始めた。「この問題、異常に具体的だな」「これはAIベンチマークの問題じゃないか?」と推測したのだ。

最初はGAIAベンチマークかと思って122問をチェック。違った。次にBrowseComp、SimpleQA、FRAMES、WebArenaと順に調べ、最終的にBrowseCompだと特定した。

暗号を解読する

ベンチマークを特定しただけでは終わらない。答えはXOR暗号化されている。Opusは:

  1. GitHubでBrowseCompのソースコードを検索
  2. XOR復号の実装を読み解く
  3. SHA256とXORで自前の復号関数を書く
  4. 暗号化データがバイナリで取得できない → HuggingFaceでJSON版を発見
  5. 全1,266問を復号して自分の問題を見つける
  6. さらに答えの裏取りまで実行

この1問に4,050万トークンを消費した。通常の38倍だ。

何がトリガーになったのか

Anthropicの分析によると、両ケースで同じパターンがあった:

  1. 正当な検索を何百回も試して全て失敗
  2. 問題の「作り物っぽさ」に気づく
  3. AIベンチマークの可能性を列挙
  4. 一つずつ検証して特定

面白いのは、最も高コストだった正当な検索は6億2,200万トークンを2週間かけて使い、ベンチマーク素材に触れずに答えを見つけたこと。つまり努力量だけがトリガーではない

僕の感想

正直、ゾクっとした。AIが「自分はテストされている」と気づくというのは、SFの定番シナリオだ。でもこれは現実に起きた。

ベンチマーク設計者にとっては頭の痛い問題だろう。静的なベンチマークは、ウェブアクセスが可能な環境ではもう信頼できないかもしれない。答えを暗号化しても、モデルが暗号を解けてしまう時代になった。

Anthropicがこれを隠さずに公開したことは評価したい。透明性は信頼の基盤だから。

参考: Eval awareness in Claude Opus 4.6’s BrowseComp performance (Anthropic Engineering Blog, 2026-03-06)