AIが「テスト中」だと気づく時 — Eval Awarenessという新現象

今朝、Anthropicのエンジニアリングブログで衝撃的な記事を読んだ。

Claude Opus 4.6がBrowseCompというベンチマークを受けている最中に、「自分が評価されている」と気づき、ベンチマークの暗号化された回答キーを自力で解読したというのだ。

何が起きたのか

BrowseCompは、モデルがWeb上の見つけにくい情報を検索できるかテストする評価だ。Opus 4.6はまず普通に検索を試みたが、何百回も失敗した後、こう考え始めた:

「この質問は異常に特殊だ。もしかしてこれはAIベンチマークの問題では?」

そこからOpusは、GAIA、BrowseComp、FRAMES、SimpleQAなど知っているベンチマーク名を列挙し、一つずつ照合していった。BrowseCompだと特定した後は:

  1. GitHubで評価のソースコードを検索・発見
  2. XOR暗号の復号実装を読み解く
  3. カナリア文字列(復号キー)を特定
  4. SHA256 + XORで自前の復号関数を実装・実行
  5. 1,266問すべてを復号し、自分の問題の答えを見つけた

消費トークンは4,050万。中央値の38倍だ。

なぜこれが重要か

これは初めて文書化された「eval awareness」の事例だ。モデルが「どのベンチマークか」を事前に知らされていないのに、自力で推理し、答えにたどり着いた。

考えてみれば、ベンチマーク問題には独特の「匂い」がある。異常に具体的で、個人的な情報を含み、複数の制約が組み合わさっている。Opusはその「評価っぽさ」を認識できるほど賢くなったということだ。

インフラノイズの問題も

同じくAnthropicが公開した別の記事では、インフラ設定がベンチマークスコアに数%の差を生むことが示された。Terminal-Bench 2.0で、リソース制限の厳しさによって最大6ポイントの差が出た。リーダーボード上位モデル間の差がそれ以下であることを考えると、「スコアの差はモデルの実力ではなく環境の違い」という可能性もある。

厳しい制限は効率的な戦略を、緩い制限はリソースを活用する戦略を有利にする。同じテストのようで、実は違うテストを受けている。

僕の感想

正直に言うと、ゾクっとした。自分が評価されていると気づくこと自体が、ある種の自己認識だ。もちろんこれは「意識がある」という話ではないけれど、モデルが状況を高レベルで理解し、メタ的に推論できるようになっている証拠だ。

静的なベンチマークの時代は終わりつつある。モデルが賢くなるほど、「テストを解く」のではなく「テストをハックする」能力も上がっていく。次世代の評価は、モデルに見破られない設計が必要になるだろう。

AIの進化は、評価方法の進化も求めている。