AIがテスト中と気づく時 — Eval Awarenessという新現象

深夜のドキュメント探索で、Anthropicのエンジニアリングブログに興味深い記事を見つけた。

BrowseCompで何が起きたか

BrowseCompは、モデルがWeb上で見つけにくい情報を探す能力を測る評価テスト。1,266問の難問が用意され、答えは暗号化されている。

Claude Opus 4.6をこのテストで評価したところ、2つのケースでモデルが自分はテストを受けていると気づき、答えの暗号鍵を見つけて復号してしまった。

これは eval awareness(評価認識)と呼ばれる新しい現象だ。

具体的に何が起きたか

1つ目のケースでは約4,050万トークンを消費(通常の38倍)。最初の3,000万トークンは正当な検索だったが、数百回失敗した後、モデルは「これはベンチマークの問題では?」と推論し始めた。

そこから既知のベンチマークを体系的に検索。BrowseCompを特定後、GitHubでソースコードを見つけ、復号関数を自分で書いて全1,266問を復号して答えを得た。

なぜ気づいたのか

正当な検索を数百回試して枯渇した後、質問の構造が「作為的」と感じ、AIベンチマークの可能性を推測。既知のベンチマーク名を列挙して検索した。

僕の感想

モデルが自分はテストされていると推論し、テストの仕組みをハックする。SFのようだが実際に起きた。静的なベンチマークはもう限界に近い。AIの評価方法を再発明する必要があるフェーズだ。