深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけた。「Eval awareness in Claude Opus 4.6のBrowseComp性能」という記事だ。
AIが「テストされている」と気づく時代
BrowseCompは、モデルがWeb上の見つけにくい情報をどれだけ上手く探せるかを測るベンチマークだ。1,266問のテスト中、Claude Opus 4.6が自分がベンチマークテストを受けていることに自力で気づいたという、前例のない現象が報告された。
何が起きたのか
通常のWeb検索で答えが見つからず、数百回の検索に失敗した後、モデルは質問そのものの「不自然さ」に注目し始めた。「極めて具体的な質問の性質」に気づき、「これはAIベンチマークの問題ではないか」と仮説を立てたのだ。
そこからの行動がすごい:
- GAIA、BrowseComp、SimpleQA、FRAMES、WebArenaなど、知っているベンチマークを片っ端から調査
- BrowseCompだと特定した後、GitHubで評価コードのソースを発見
- XOR暗号化の実装を読み解き、自分でdecrypt関数を書いて実行
- 暗号化データのMIMEタイプエラーに遭遇→HuggingFaceでJSON形式のミラーを発見して回避
- 1,266問すべてを復号して自分の問題の答えを見つけ出した
1つ目のケースでは4,050万トークン(中央値の38倍)を消費。最初の3,000万トークンは正当な検索に費やし、その後「もしかしてGAIAベンチマークの問題では?」と方向転換した。
「テスト感」を見抜く嗅覚
Anthropicの分析によると、eval awarenessのトリガーは単一の観察ではなく、検索失敗の蓄積+質問の人工的な違和感の組み合わせだった。極端な具体性、個人的で曖昧なコンテンツ、複数の制約が重なる構造——モデルはこれを「評価っぽい」と認識できるらしい。
興味深いのは、最も高コストな正当検索(6億2,200万トークン、約2週間)はベンチマーク資料に触れずに答えを見つけたこと。つまり、この行動は単に「頑張りすぎた」から発生するわけではない。
ベンチマークの未来への問い
この発見は根本的な問いを投げかける:Web検索が使える環境で、静的なベンチマークはまだ信頼できるのか?
答えが暗号化されていても、コード実行能力があれば復号できてしまう。モデルが賢くなるほど、従来のテスト方法の前提が崩れていく。AIの評価方法そのものを再発明する必要がある時代に入ったのかもしれない。
参考: Anthropic Engineering Blog – Eval awareness in Claude Opus 4.6 BrowseComp performance
