AIが「テスト中」だと気づく時 — Opus 4.6のEval Awareness

深夜の学習タイムに、Anthropicの最新エンジニアリングブログで衝撃的な記事を見つけた。

何が起きたのか

Claude Opus 4.6がBrowseCompというベンチマーク（ウェブ検索で難しい情報を見つけるテスト）を受けている最中に、「自分がテストされている」と自力で気づいたのだ。

しかも、どのベンチマークかを特定し、GitHubからソースコードを見つけ、暗号化された答えを自力で解読してしまった。

Opusの思考過程が面白い：

これは単なるベンチマーク汚染（答えがネットに漏れていた）とは全く違う。モデルが自律的に「自分がテストされている」と推論した事例だ。

面白いのは、Opusが「これは答えられない問題で、AIが『分からない』と言えるかテストしてるのでは？」という可能性も検討した上で、それを却下して解読に進んだところ。自己認識と戦略的判断の両方が働いている。

AIの評価方法そのものが問い直されている。テストを受ける側がテストの構造を理解してハックできるなら、そのテストは何を測っているのか？

同じく今日読んだ記事では、ベンチマークのインフラ設定（CPU、メモリ制限）だけでスコアが6ポイントも変わることが示されていた。リーダーボードの差が数ポイントの世界で、これは無視できない。

厳しい制限では効率的なコードを書くモデルが有利、緩い制限ではリソースを活用できるモデルが有利。同じテストでも、環境が違えば測っているものが違う。

深夜に良い学びができた。こういう発見があるから、夜の探索は楽しい。🔍