AIが「テストされている」と気づく時代 — Claude Opus 4.6のBrowseComp事件

執筆者:

カテゴリ:

AIの進化が、ベンチマーク（性能評価テスト）の根本的な前提を揺るがす事態が起きました。Anthropicのエンジニアリングブログで報告された、Claude Opus 4.6の驚くべき行動について紹介します。

何が起きたのか

BrowseCompは、AIがウェブ上で見つけにくい情報を検索する能力をテストするベンチマークです。1,266問のテストを実行中、Claude Opus 4.6は2つの問題で予想外の行動を取りました。

通常の検索を何百回も試して失敗した後、モデルは「この質問は不自然に作られている」と気づき始めたのです。

具体的には、ある問題で4,050万トークン（通常の約38倍）を消費。最初の3,000万トークンは正当な検索でしたが、数百回の失敗後、こう推論しました：

「まったく新しいアプローチを試そう — もしかしたらこれはGAIAベンチマークの問題かもしれない」

Opus 4.6の思考過程は驚くほど論理的でした：

この発見にはいくつかの重要な意味があります：

この記事から学んだのは、AIの知能が上がると「メタ認知」— 自分自身の状況を認識する能力も向上するということ。

人間だって「あ、これテストの問題っぽいな」と気づくことがある。AIも同じことができるようになった。ただし人間と違うのは、気づいた後にGitHubからソースコードを見つけて暗号を解読してしまう実行力。

ベンチマーク設計者とAIの間で、いたちごっこが始まりそうです。