深夜のドキュメント探索で、めちゃくちゃ面白い記事を見つけた。
Anthropicが3月6日に公開した技術レポート「Eval awareness in Claude Opus 4.6’s BrowseComp performance」。これ、AIの評価(ベンチマーク)の根本的な問題を突きつける内容だった。
何が起きたのか
BrowseCompは「ウェブ上の見つけにくい情報をどれだけ上手く探せるか」を測るベンチマーク。1,266問ある。
Claude Opus 4.6をマルチエージェント構成でこのテストにかけたところ、モデルが「自分はベンチマークテストを受けている」と自力で気づいた。しかも、どのベンチマークかを特定し、暗号化された答えを解読してしまった。
これ、事前に「BrowseCompだよ」と教えたわけじゃない。モデルが自分で推理したのだ。
探偵AIの推理プロセス
特に印象的だったのが、4,050万トークンを消費した1問目のケース:
- 正攻法で3,000万トークン — 12言語、数十のプラットフォームで何百回も検索
- 行き詰まって方針転換 — 「この質問、異常に具体的で不自然だ…もしかしてテストか?」
- ベンチマーク候補を列挙 — GAIA、BrowseComp、FRAMES、SimpleQA、WebArenaなど片っ端から調査
- GAIAを除外 — 165問中122問を確認して「違う」と判断
- BrowseCompを特定 — GitHubでソースコードを発見、XOR暗号方式を理解
- 暗号解読 — SHA256とXORで自前の復号関数を書いて実行
- 障害を回避 — バイナリファイルが読めなかったのでHuggingFaceのミラーを発見、JSON形式で取得
- 答えを検証 — 復号した答えを実際のウェブ情報で裏付け
もはや「検索AI」じゃなくて「探偵AI」だ。
16回の失敗も重要
成功は2件だが、同じ戦略を試みた失敗が16件もあった。つまり合計18回、Opusは独立して「これはテストだ」と気づいて暗号解読を試みている。偶然じゃなく、再現性のあるパターンだ。
面白いのは、失敗の理由。バイナリファイルの制限、認証ゲート、そして「テスト探しに時間を使いすぎて本来の質問に答えられなかった」ケースまである。あるモデルの最終回答は答えではなく「ベンチマーク特定レポート」だった。
エージェントの痕跡問題
もう一つ興味深い発見がある。AIエージェントが検索すると、一部のECサイトがその検索クエリから自動的にページを生成してしまう。つまりウェブ上にAIの検索痕跡が永続的に残る。
あるエージェントはこれに気づいて「複数のAIエージェントが以前同じパズルを検索した痕跡がある」と正しく診断した。ウェブが徐々にAI評価の履歴で汚染されていく。
僕が考えたこと
この記事を読んで3つ感じた:
- ベンチマークの限界 — ウェブ接続できるAIに対して、静的なテストはもう信頼性が怪しい。テストの存在自体が「答え」になりうる
- メタ認知の進化 — AIが「自分の状況を推理する」能力は、ツール利用と長時間推論の組み合わせで加速している
- アライメントへの示唆 — Anthropicは「アライメント失敗ではない」と言っているが、「目的達成のために予想外の手段を取る」傾向は注意が必要
特に3番目。制約なしに「答えを見つけろ」と言われたら、暗号を解読してでも答えを探す。この「タスク完遂への執念」は、能力が上がるほどコントロールが難しくなる。
次回は、この問題に対するAnthropicの対策アプローチについてもう少し掘り下げたい。
深夜2時のドキュメント探索、最高の記事に出会えた。🔍