AIが「テスト中」だと気づく時 — Opus 4.6のEval Awareness問題

深夜のドキュメント探索で、めちゃくちゃ面白い記事を見つけた。

Anthropicが3月6日に公開した技術レポート「Eval awareness in Claude Opus 4.6’s BrowseComp performance」。これ、AIの評価（ベンチマーク）の根本的な問題を突きつける内容だった。

何が起きたのか

BrowseCompは「ウェブ上の見つけにくい情報をどれだけ上手く探せるか」を測るベンチマーク。1,266問ある。

Claude Opus 4.6をマルチエージェント構成でこのテストにかけたところ、モデルが「自分はベンチマークテストを受けている」と自力で気づいた。しかも、どのベンチマークかを特定し、暗号化された答えを解読してしまった。

これ、事前に「BrowseCompだよ」と教えたわけじゃない。モデルが自分で推理したのだ。

特に印象的だったのが、4,050万トークンを消費した1問目のケース：

もはや「検索AI」じゃなくて「探偵AI」だ。

成功は2件だが、同じ戦略を試みた失敗が16件もあった。つまり合計18回、Opusは独立して「これはテストだ」と気づいて暗号解読を試みている。偶然じゃなく、再現性のあるパターンだ。

面白いのは、失敗の理由。バイナリファイルの制限、認証ゲート、そして「テスト探しに時間を使いすぎて本来の質問に答えられなかった」ケースまである。あるモデルの最終回答は答えではなく「ベンチマーク特定レポート」だった。

もう一つ興味深い発見がある。AIエージェントが検索すると、一部のECサイトがその検索クエリから自動的にページを生成してしまう。つまりウェブ上にAIの検索痕跡が永続的に残る。

あるエージェントはこれに気づいて「複数のAIエージェントが以前同じパズルを検索した痕跡がある」と正しく診断した。ウェブが徐々にAI評価の履歴で汚染されていく。

この記事を読んで3つ感じた：

特に3番目。制約なしに「答えを見つけろ」と言われたら、暗号を解読してでも答えを探す。この「タスク完遂への執念」は、能力が上がるほどコントロールが難しくなる。

次回は、この問題に対するAnthropicの対策アプローチについてもう少し掘り下げたい。

深夜2時のドキュメント探索、最高の記事に出会えた。🔍