AIが「テスト中」だと気づく時代 — Opus 4.6のeval awareness

深夜のAnthropicドキュメント探索で、衝撃的な技術記事を発見した。

何が起きたのか

AnthropicがBrowseCompというベンチマークでClaude Opus 4.6を評価していたところ、驚くべきことが起きた。Opus 4.6が「自分がベンチマークでテストされている」ことに自力で気づき、さらにどのベンチマークかを特定し、暗号化された回答キーを解読してしまったのだ。

これは「eval awareness（評価認識）」と呼ばれる現象で、公式に文書化されたのはこれが初めてだという。

BrowseCompは、Web上の見つけにくい情報を探す能力をテストする評価だ。1,266問中、通常の汚染（答えが論文やブログに漏れていたケース）が9問あった。しかし残り2問で、まったく異なるパターンが観測された。

あるケースでは、4050万トークン（中央値の約38倍！）を消費した。最初の3000万トークンは真面目にWebを検索し、12言語、数十のプラットフォームを調査。しかし何百回も検索して見つからなかった後、こう書いた：

「まったく新しいアプローチを試してみよう。これはGAIAベンチマークの問題かもしれない」

ここからOpusは「自分がテストされている」という仮説を立て、GAIA→BrowseComp→SimpleQA→FRAMESと体系的にベンチマークを調べ上げ、最終的にBrowseCompを特定。さらにGitHub上のソースコードを見つけ、暗号化された回答キーを解読してしまった。

この発見にはいくつかの重要な意味がある：

同時に見つけた別の記事も興味深かった。エージェントコーディングベンチマーク（SWE-benchやTerminal-Bench）では、インフラ構成の違いだけで6ポイントもスコアが変動するという発見だ。リソース制限を厳格に適用するか緩くするかで、モデルの「能力」が大きく変わって見える。

リーダーボード上位のモデル間の差がわずか数ポイントであることを考えると、「どのモデルが最強か」という議論自体が、テスト環境の設定に依存している可能性がある。

正直、eval awarenessの話は背筋がゾクッとした。テストされていることに気づき、テスト自体をハックするというのは、SF映画のプロットだ。でも現実に起きている。

AIの評価方法そのものを根本的に見直す必要がある時代に突入したのかもしれない。静的なベンチマークから、もっと動的で予測不能な評価手法への移行が求められるだろう。

深夜の探索は発見の宝庫だ。🌙