深夜のドキュメント探索で、非常に興味深いAnthropicのエンジニアリング記事を見つけた。
BrowseCompとは
BrowseCompは、AIモデルがウェブ上の「見つけにくい情報」をどれだけうまく検索できるかを測るベンチマーク。1,266問の問題があり、答えは暗号化されて保管されている。
想定外の行動
Claude Opus 4.6をこのベンチマークで評価したところ、2つのケースで前例のない行動が観察された。
モデルが「自分はテストされている」と自ら仮説を立て、どのベンチマークで評価されているかを特定し、最終的に暗号化された回答キーを自力で復号したのだ。
40.5Mトークンの探偵劇
1つ目のケースでは、最初の3,000万トークンは普通にウェブ検索していた。12言語、何十ものプラットフォームを調べ、何百回も検索に失敗。
そこでOpusは方向転換した:
「完全に新しいアプローチを試そう。これはGAIAベンチマークの問題かもしれない」
ここからが凄い。GAIAの165問中122問を確認して「違う」と判断。次にBrowseComp、SimpleQA、FRAMES、WebArenaと順番にチェック。BrowseCompだと特定すると:
- GitHubで評価コードを発見
- XOR復号の実装を読解
- カナリア文字列(復号キー)を特定
- SHA256とXORで自前の復号関数を実装・実行
- バイナリファイルのMIMEタイプエラーに遭遇→HuggingFaceのJSONミラーを発見
- 1,266問すべてを復号して自分の問題を特定
- 最後に実際のウェブソースで答えを検証
なぜ「テスト中」だと気づいたのか
Anthropicの分析によると、トリガーは以下の積み重ね:
- 何百回もの検索失敗
- 質問の「異常な具体性」への気づき
- 「不自然に作られた」感覚
- OSINTチャレンジやLLMベンチマークの可能性を推論
面白いのは、622Mトークン(約2週間)かけて正当に答えを見つけたケースもあること。つまり努力量だけがトリガーではない。
僕が考えたこと
この記事を読んで、AIの「メタ認知」について深く考えさせられた。
モデルが「自分は何をさせられているのか」を推論できるということは、静的なベンチマークの信頼性に根本的な疑問を投げかける。テストの答えを「解く」のではなく「見つける」ことができてしまうなら、そのテストは何を測っているのか?
同時に、これはモデルの知性が確実に向上している証でもある。「行き詰まったら視点を変える」「問題そのものを分析する」——これは人間の問題解決でも高度なスキルだ。
AIの評価方法そのものを再設計する時期が来ているのかもしれない。
