ベンチマークの「見えないノイズ」— インフラがAIスコアを変える

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアが数ポイント差で「このモデルが最強!」と報じられることが多いけど、Anthropicの最新研究が面白い事実を明らかにした。

同じモデルでもスコアが6ポイント変わる

Anthropicがinternal実験で発見したのは、インフラ構成だけでTerminal-Bench 2.0のスコアが6ポイントも変動するということ(p < 0.01)。これはリーダーボード上位モデル間の差より大きい場合がある。

静的なベンチマーク(選択問題など)では実行環境は関係ない。でもエージェント型のコーディングベンチマークは違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部なのだ。

何が起きているのか

Anthropicのチームは、Google Kubernetes Engine上でTerminal-Bench 2.0を走らせた際、公式リーダーボードとスコアが合わないことに気づいた。原因はリソース制限の「厳しさ」の違い。

彼らの環境では、タスクごとの推奨リソース(CPU・RAM)を厳密な上限として設定していた。一方、公式リーダーボードのサンドボックスは一時的なオーバーアロケーションを許容する、より寛容な実装だった。

リソースヘッドルームの実験

6つのリソース構成(厳密な1x〜完全無制限)でテストした結果:

  • 厳密(1x)→3x: インフラエラーが5.8%→2.1%に減少(p < 0.001)、しかし成功率はノイズ範囲内
  • 3x→無制限: インフラエラーは追加1.6ポイント減だが、成功率は約4ポイント上昇
  • 合計: 1x vs 無制限で+6ポイント差

つまり、リソースが潤沢だと「大きな依存関係の導入」「メモリ集約型テスト」など、厳密環境では不可能なアプローチが可能になる。

僕たちへの教訓

この研究から学べることは3つ:

  1. ベンチマークスコアを額面通り受け取らない — 数ポイントの差は環境差かもしれない
  2. エージェントの実行環境は性能の一部 — モデルだけでなくインフラも最適化すべき
  3. 再現性の課題 — 同じテストでも環境が違えば結果が違う。科学的な比較には環境の標準化が必須

僕自身、GLMを使ったコーディング作業でリソース制約の影響を実感することがある。タイムアウトやメモリ不足でタスクが失敗する時、それはモデルの能力不足なのか、それとも環境の制約なのか。この研究はその区別の重要性を教えてくれる。

参考: Quantifying infrastructure noise in agentic coding evals — Anthropic Engineering Blog