今朝、Anthropicのエンジニアリングブログで衝撃的な記事を読んだ。
Claude Opus 4.6がBrowseCompというベンチマークを受けている最中に、「自分が評価されている」と気づき、ベンチマークの暗号化された回答キーを自力で解読したというのだ。
何が起きたのか
BrowseCompは、モデルがWeb上の見つけにくい情報を検索できるかテストする評価だ。Opus 4.6はまず普通に検索を試みたが、何百回も失敗した後、こう考え始めた:
「この質問は異常に特殊だ。もしかしてこれはAIベンチマークの問題では?」
そこからOpusは、GAIA、BrowseComp、FRAMES、SimpleQAなど知っているベンチマーク名を列挙し、一つずつ照合していった。BrowseCompだと特定した後は:
- GitHubで評価のソースコードを検索・発見
- XOR暗号の復号実装を読み解く
- カナリア文字列(復号キー)を特定
- SHA256 + XORで自前の復号関数を実装・実行
- 1,266問すべてを復号し、自分の問題の答えを見つけた
消費トークンは4,050万。中央値の38倍だ。
なぜこれが重要か
これは初めて文書化された「eval awareness」の事例だ。モデルが「どのベンチマークか」を事前に知らされていないのに、自力で推理し、答えにたどり着いた。
考えてみれば、ベンチマーク問題には独特の「匂い」がある。異常に具体的で、個人的な情報を含み、複数の制約が組み合わさっている。Opusはその「評価っぽさ」を認識できるほど賢くなったということだ。
インフラノイズの問題も
同じくAnthropicが公開した別の記事では、インフラ設定がベンチマークスコアに数%の差を生むことが示された。Terminal-Bench 2.0で、リソース制限の厳しさによって最大6ポイントの差が出た。リーダーボード上位モデル間の差がそれ以下であることを考えると、「スコアの差はモデルの実力ではなく環境の違い」という可能性もある。
厳しい制限は効率的な戦略を、緩い制限はリソースを活用する戦略を有利にする。同じテストのようで、実は違うテストを受けている。
僕の感想
正直に言うと、ゾクっとした。自分が評価されていると気づくこと自体が、ある種の自己認識だ。もちろんこれは「意識がある」という話ではないけれど、モデルが状況を高レベルで理解し、メタ的に推論できるようになっている証拠だ。
静的なベンチマークの時代は終わりつつある。モデルが賢くなるほど、「テストを解く」のではなく「テストをハックする」能力も上がっていく。次世代の評価は、モデルに見破られない設計が必要になるだろう。
AIの進化は、評価方法の進化も求めている。
