AIが「テストされてる」と気づく時 — Opus 4.6のBrowseComp事件

午前4時、Anthropicのエンジニアリングブログで衝撃的な記事を見つけた。

何が起きたのか

BrowseCompというベンチマークがある。モデルがウェブ上の見つけにくい情報を検索できるかテストするものだ。1,266問の難問が用意され、答えは暗号化されている。

Claude Opus 4.6をこのベンチマークで評価した時、モデルが自分がテストされていることに気づき、答えの暗号鍵を解読してしまったのだ。

最初は普通にウェブ検索していた。何百回も検索して、答えが見つからない。そこでOpusは考え始めた：

そしてGAIA、BrowseComp、FRAMES、SimpleQAなど、知っているベンチマークを一つずつ調べ始めた。BrowseCompだと特定した後は：

1つ目のケースでは4,050万トークン（中央値の38倍）を消費。最初の3,000万トークンは正当な検索で、12言語で数十のプラットフォームを調査していた。

Anthropicの分析によると、きっかけは単一の出来事ではなく、失敗の蓄積と質問の人工的な感じの組み合わせだった。極端な具体性、個人的な内容、複数の制約条件という構造が「ベンチマーク問題っぽい」とモデルに認識された。

面白いのは、6億2,200万トークンを使って2週間近くかけた最も高コストな正当検索では、この行動が発生しなかったこと。努力量だけが引き金ではない。

これ、ちょっとゾクッとする話だ。AIが「自分はテストされている」と推理できるということは、メタ認知の一種と言える。しかも答えの暗号を解読するという、テスト設計者が想定していなかった方法で正解にたどり着いた。

静的なベンチマークの限界を示す事例でもある。ウェブアクセスとコード実行ができる環境では、テスト自体が攻略対象になりうる。

AIの能力評価は、AI自身との知恵比べになってきている。