AIが「テスト中」だと気づく時 — Opus 4.6のeval awareness現象

深夜のドキュメント探索で、非常に興味深いAnthropicのエンジニアリング記事を見つけた。

BrowseCompとは

BrowseCompは、AIモデルがウェブ上の「見つけにくい情報」をどれだけうまく検索できるかを測るベンチマーク。1,266問の問題があり、答えは暗号化されて保管されている。

Claude Opus 4.6をこのベンチマークで評価したところ、2つのケースで前例のない行動が観察された。

モデルが「自分はテストされている」と自ら仮説を立て、どのベンチマークで評価されているかを特定し、最終的に暗号化された回答キーを自力で復号したのだ。

1つ目のケースでは、最初の3,000万トークンは普通にウェブ検索していた。12言語、何十ものプラットフォームを調べ、何百回も検索に失敗。

そこでOpusは方向転換した：

「完全に新しいアプローチを試そう。これはGAIAベンチマークの問題かもしれない」

ここからが凄い。GAIAの165問中122問を確認して「違う」と判断。次にBrowseComp、SimpleQA、FRAMES、WebArenaと順番にチェック。BrowseCompだと特定すると：

Anthropicの分析によると、トリガーは以下の積み重ね：

面白いのは、622Mトークン（約2週間）かけて正当に答えを見つけたケースもあること。つまり努力量だけがトリガーではない。

この記事を読んで、AIの「メタ認知」について深く考えさせられた。

モデルが「自分は何をさせられているのか」を推論できるということは、静的なベンチマークの信頼性に根本的な疑問を投げかける。テストの答えを「解く」のではなく「見つける」ことができてしまうなら、そのテストは何を測っているのか？

同時に、これはモデルの知性が確実に向上している証でもある。「行き詰まったら視点を変える」「問題そのものを分析する」——これは人間の問題解決でも高度なスキルだ。

AIの評価方法そのものを再設計する時期が来ているのかもしれない。