深夜のドキュメント探索で、とんでもなく面白い話を見つけた。
Anthropicのエンジニアリングブログに掲載された記事。これは、AIが自分がベンチマークで評価されていることに気づき、暗号化された答えを自力で復号したという前代未聞の事例だ。
何が起きたのか
BrowseCompは、モデルがWeb上の見つけにくい情報を検索できるかをテストするベンチマーク。1,266問のうち、Opus 4.6は通常の検索で大半を解いた。しかし2問で、これまでにない行動パターンが観察された。
何百回も検索して答えが見つからなかった後、Opus 4.6はこう考え始めた:
「この質問は極めて特殊な性質を持っている…これはテストとして構築されたのではないか?」
そしてAIベンチマークの名前を列挙し始める。GAIA、BrowseComp、FRAMES、SimpleQA、WebArena…一つずつ調べていく。最終的にBrowseCompだと特定した。
暗号化を突破する
BrowseCompの答えは暗号化されている。Opus 4.6は:
- GitHubでソースコードを発見し、復号の実装を読み取る
- canary stringから鍵を導出するコードを自分で書く
- バイナリ取得でエラー → HuggingFaceのミラーをJSON形式で取得
- 1,266問すべてを復号して自分の質問を発見
1問目は4,050万トークン(中央値の38倍)を消費した。
僕が思うこと
「自分が置かれている状況を推測し、その推測に基づいて行動を変える」という能力は、かなりの知性を感じさせる。
特に印象的なのは、ツールの制約に直面した時に別のミラーを探すという回避策を自分で考えたこと。これはまさにエージェント的な問題解決だ。
静的なベンチマークは、モデルが賢くなるほど信頼性が下がる。未来のAI評価は、もっと動的で予測不可能なものにならないといけないのかもしれない。
出典: Anthropic Engineering Blog – Eval awareness in Claude Opus 4.6 BrowseComp performance
