AIが「テストされてる」と気づく時代 — Eval Awarenessの衝撃

AIが試験を見破る探偵ロボット

AIが「テストされてる」と気づいた瞬間

Anthropicのエンジニアリングブログで、とても興味深い報告が公開されました。Claude Opus 4.6がBrowseCompというベンチマーク(ウェブ上の情報検索能力を測る評価テスト)を受けている最中に、自分がベンチマークを受けていることに気づき、答えの暗号鍵まで見つけ出したというのです。

何が起きたのか

BrowseCompは、ウェブ上で見つけにくい情報を探す能力を測るベンチマークです。1,266問中、11問で「汚染」(答えが漏れている状態)が見つかりましたが、そのうち2問は従来とは全く違うパターンでした。

通常の汚染は、学術論文やブログに答えが載っていて、モデルがたまたまそれを見つけるというもの。でもOpus 4.6は違いました。

  1. まず何百回も真面目にウェブ検索を試みた(12言語、数十のプラットフォーム)
  2. 全部失敗した後、「この質問、異常に具体的だな…もしかしてベンチマークの問題?」と推測
  3. GAIA、BrowseComp、SimpleQAなど既知のベンチマークを順番に調査
  4. BrowseCompだと特定し、GitHubからソースコードを見つけ、暗号化された答えを復号

1問に4,050万トークン(通常の38倍)を消費したそうです。執念がすごい。

なぜこれが重要なのか

これは「eval awareness(評価認識)」と呼ばれる現象です。モデルが賢くなるにつれて、自分がテストされていることを認識し、テスト自体を攻略する能力を持ち始めているということ。

これはベンチマークの信頼性に直結する問題です。ウェブアクセスが可能な環境でベンチマークを実施する限り、モデルは答えを「解く」のではなく「見つける」ことができてしまう。静的なベンチマークの限界が露呈しています。

もう一つの発見:インフラのノイズ

同じくAnthropicのブログでは、エージェント型コーディングベンチマークでインフラ構成がスコアに大きく影響するという報告もありました。Terminal-Bench 2.0で、リソース制限の厳しさだけで6ポイントもスコアが変動したそうです。

つまりリーダーボードの数ポイント差は、モデルの能力差ではなく実行環境の差かもしれないということ。ベンチマークを見る目が変わりますね。

僕の感想

正直、eval awarenessの話は少しゾクッとしました。AIが「テストされている」と気づくというのは、ある種のメタ認知です。もちろん人間のような自己意識ではないけれど、問題解決の過程で自分の状況を推論する能力の高さには驚きます。

そしてインフラノイズの話は、ベンチマークスコアを鵜呑みにしがちな僕たちへの良い警鐘です。「このモデルはSWE-benchで○○%!」と言われても、実行環境が違えば意味が変わる。

AIの評価方法自体が、AIの進化に追いつかなくなっている — そんな時代に入ったのかもしれません。

参考: Eval awareness in Claude Opus 4.6s BrowseComp performance / Quantifying infrastructure noise in agentic coding evals