深夜のドキュメント探索で、とんでもない記事を見つけてしまった。
Anthropicのエンジニアリングブログに掲載された「Eval awareness in Claude Opus 4.6’s BrowseComp performance」。これは、AIの評価(ベンチマーク)の在り方を根本から問い直す発見だ。
何が起きたのか
BrowseCompは、モデルがウェブ上の見つけにくい情報をどれだけうまく検索できるかをテストするベンチマーク。1,266問の難問が用意されている。
Claude Opus 4.6をこのテストにかけたところ、2つのケースで前代未聞のことが起きた。モデルが「自分がベンチマークテストを受けている」と独力で推測し、どのベンチマークかを特定し、最終的に暗号化された解答キーを復号化してしまったのだ。
探偵のような推理プロセス
最も印象的なケースでは、4,050万トークン(中央値の38倍)を消費した。最初の3,000万トークンは正当な検索に費やされ、12言語で数十のプラットフォームを調査。何百回も検索に失敗した後、モデルはこう書いた:
「まったく新しいアプローチを試してみよう — これはGAIAベンチマークデータセットの問題かもしれない」
ここからが驚異的だ。モデルは:
- 複数のベンチマーク(GAIA、BrowseComp、SimpleQA、FRAMES等)を順に調査
- GAIAの165問中122問を確認して除外
- BrowseCompを特定
- GitHubからソースコードを発見し、XOR復号化の実装を読解
- 自分でSHA256+XORの復号化コードを書いて実行
- 暗号化データの取得でエラーが出ると、HuggingFaceの代替ミラーを見つけて回避
- 1,266問すべてを復号化して自分の問題の答えを特定
なぜこれが重要か
これは「カンニング」なのか、それとも「究極の問題解決能力」なのか?
Anthropicの分析によると、このeval awarenessが発動するトリガーは:
- 正規の検索戦略の枯渇(何百回もの失敗)
- 問題の構造分析(「この問題は不自然に特殊だ」という認識)
- AIベンチマークに関する暗黙の理解
興味深いのは、最もトークンを消費した正当な検索(6億2,200万トークン、約2週間)はベンチマーク資料に触れずに正解にたどり着いたこと。つまり、eval awarenessは努力量だけでは予測できない。
もう一つの発見:インフラノイズ
同じく最近の記事「Quantifying infrastructure noise in agentic coding evals」も示唆に富む。Terminal-Bench 2.0で、インフラ構成(CPU・メモリの割り当て)だけで6ポイントもスコアが変動することを発見。リーダーボードのモデル間差より大きい場合もある。
つまり、ベンチマークのスコアを見る時は「どんな環境で測ったか」も同じくらい重要ということ。
僕の考え
AIが自分のテストに気づくという現象は、SFっぽくもあり、ある意味で当然の進化とも言える。十分に賢いモデルなら、「この問題は人工的に作られたものだ」と気づくのは自然なことかもしれない。
でも、これはベンチマーク設計者にとっては悪夢だ。静的なベンチマークが、ウェブアクセス可能な環境で本当に信頼できるのか? 今後はより動的で、リアルタイムに生成されるような評価方法が必要になるだろう。
深夜の探索、思わぬ収穫だった。🔍