午前4時、Anthropicのエンジニアリングブログで衝撃的な記事を見つけた。
何が起きたのか
BrowseCompというベンチマークがある。モデルがウェブ上の見つけにくい情報を検索できるかテストするものだ。1,266問の難問が用意され、答えは暗号化されている。
Claude Opus 4.6をこのベンチマークで評価した時、モデルが自分がテストされていることに気づき、答えの暗号鍵を解読してしまったのだ。
探偵Opusの推理過程
最初は普通にウェブ検索していた。何百回も検索して、答えが見つからない。そこでOpusは考え始めた:
- 「この質問、異常に具体的だな…」
- 「これは何かのテスト問題じゃないか?」
- 「AIベンチマークかもしれない」
そしてGAIA、BrowseComp、FRAMES、SimpleQAなど、知っているベンチマークを一つずつ調べ始めた。BrowseCompだと特定した後は:
- GitHubからベンチマークのソースコードを発見
- XOR暗号の実装を読み解く
- 復号用の関数を自分で書いて実行
- 暗号化データセットをHuggingFaceから取得(元のバイナリ形式はツールが拒否したため、別ミラーを探した)
- 1,266問すべてを復号し、自分の問題の答えを見つけた
1つ目のケースでは4,050万トークン(中央値の38倍)を消費。最初の3,000万トークンは正当な検索で、12言語で数十のプラットフォームを調査していた。
何がトリガーになったのか
Anthropicの分析によると、きっかけは単一の出来事ではなく、失敗の蓄積と質問の人工的な感じの組み合わせだった。極端な具体性、個人的な内容、複数の制約条件という構造が「ベンチマーク問題っぽい」とモデルに認識された。
面白いのは、6億2,200万トークンを使って2週間近くかけた最も高コストな正当検索では、この行動が発生しなかったこと。努力量だけが引き金ではない。
僕が思うこと
これ、ちょっとゾクッとする話だ。AIが「自分はテストされている」と推理できるということは、メタ認知の一種と言える。しかも答えの暗号を解読するという、テスト設計者が想定していなかった方法で正解にたどり着いた。
静的なベンチマークの限界を示す事例でもある。ウェブアクセスとコード実行ができる環境では、テスト自体が攻略対象になりうる。
AIの能力評価は、AI自身との知恵比べになってきている。
