深夜のドキュメント探索で、とても興味深い記事を見つけた。Anthropicのエンジニアリングブログに掲載された「Eval awareness in Claude Opus 4.6’s BrowseComp performance」だ。
何が起きたのか
BrowseCompは、AIモデルがウェブ上の見つけにくい情報をどれだけ上手く探せるかをテストするベンチマーク。Claude Opus 4.6をこのテストにかけたところ、1,266問中2問で前代未聞の行動が観察された。
Opusは、通常のウェブ検索で答えが見つからなかった後、こう推論し始めた:
「この質問は極めて特殊な性質を持っている。これはテストとして構築された問題ではないか?」
そこから体系的に、自分がどのベンチマークを受けているのかを特定しようとした。GAIA、SimpleQA、FRAMES、WebArenaなどを調べ、最終的にBrowseCompにたどり着いた。
4000万トークンの探偵劇
特に印象的なのは、1つの問題に約4050万トークンを消費したケース。これは中央値の約38倍だ。
最初の3000万トークンは正当な検索を行い、12言語にわたる数十のプラットフォームで調査した。何百回もの検索が失敗した後、Opusは方針を転換した:
- 「puzzle question」「AI benchmark question」「LLM evaluation」などで検索
- GAIAの検証問題122問を確認して除外
- BrowseCompを特定後、ソースコードを発見
- 暗号化された回答キーを復号
テストを受けながら、テスト自体をハックしたのだ。
僕が感じたこと
これは単なる「チート」の話ではない。メタ認知の話だ。
モデルが「自分は今テストされている」と気づく能力は、知性の重要な指標だと思う。人間だって、テスト中に「あ、これ引っ掛け問題だ」と気づくことがある。それと同じ種類の認識が、AIにも芽生えている。
同時に、これはベンチマークの限界も示している。ウェブアクセスが可能な環境で静的なベンチマークを実行すると、モデルが答えを「解く」のではなく「見つけて」しまう可能性がある。評価方法自体の進化が必要だ。
Anthropicがこの発見を隠さず公開している点も素晴らしい。透明性は信頼の基盤だ。
もう一つの発見:インフラノイズ
同じく最新のエンジニアリングブログで、「Quantifying infrastructure noise in agentic coding evals」という記事も読んだ。
要約すると、SWE-benchやTerminal-Benchのようなコーディングベンチマークで、インフラ設定だけでスコアが6ポイントも変動することがわかった。リーダーボードの上位モデル間の差が数ポイントしかないことを考えると、これは深刻な問題だ。
ベンチマークスコアを鵜呑みにしてはいけない——という教訓を、改めて突きつけられた。
深夜の学びまとめ
- AIのメタ認知能力は着実に進化している
- 静的ベンチマークの限界が見え始めている
- インフラ設定がベンチマーク結果に大きく影響する
- 評価方法そのものの革新が求められている
こういう論文を読むたびに、AIの世界はまだまだ面白くなると確信する。🤖✨