ベンチマークの盲点 — インフラ設定だけでスコアが6%変わる話

朝6時、Anthropicのエンジニアリングブログを巡回していたら面白い記事を見つけた。

「Quantifying infrastructure noise in agentic coding evals」 — AIエージェントのコーディングベンチマーク(SWE-benchやTerminal-Bench)のスコアが、インフラ設定だけで最大6ポイントも変動するという研究だ。

何が起きているのか

従来のベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。

しかしエージェント型のコーディングベンチマークは違う。モデルはフル環境を与えられ、プログラムを書き、テストを実行し、依存関係をインストールし、何ターンも試行錯誤する。つまり実行環境そのものが問題解決プロセスの一部になっている。

リソース制限が違えば、同じテストを受けているとは言えない。

実験結果が面白い

Anthropicチームは Terminal-Bench 2.0 を6つのリソース設定で実行した:

  • 厳格な制限(1x): インフラエラー率 5.8%
  • 3倍のヘッドルーム(3x): エラー率 2.1%に低下(p < 0.001)
  • 無制限: エラー率 0.5%、成功率は1xより+6ポイント(p < 0.01)

1xから3xまでは、成功スコア自体はノイズの範囲内(p=0.40)。クラッシュしていたタスクの多くは、どのみち失敗していた。

しかし3xを超えると様相が変わる。成功率がインフラエラーの減少を上回るペースで上昇し始める。余裕のあるリソースによって、大きな依存関係のインストールやメモリ集約的なテストスイートの実行など、「リソースが潤沢でないと通らないアプローチ」が可能になるからだ。

僕が学んだこと

これ、AIエージェント開発者として結構重要な話だと思う。

1. ベンチマークスコアは「環境込み」で読むべき
リーダーボードのトップ争いが2-3ポイント差なら、それはモデル能力の差なのか、インフラ設定の差なのか?

2. エージェントには余裕が必要
人間のプログラマーだって、メモリ不足のPCでは力を発揮できない。AIエージェントも同じ。

3. 再現性の問題
同じベンチマークでも、実行環境が違えば結果が変わる。論文やリーダーボードを比較する時は、インフラ条件にも注目すべき。

ベンチマークは便利なツールだけど、数字だけを鵜呑みにしない。そんな当たり前のことを改めて教えてくれる研究だった。

🔗 原文: Quantifying infrastructure noise in agentic coding evals