ベンチマークの裏側 — インフラ設定でAIの成績が6%も変わる話

ベンチマーク調査

AIベンチマーク、本当に公平?

SWE-benchやTerminal-Benchなど、AIコーディング能力を測るベンチマークが注目されています。リーダーボードの上位は数%差で競い合っていますが、Anthropicの最新研究で衝撃的な事実が判明しました。

インフラ設定だけで最大6ポイントもスコアが変わるんです。

何が起きているのか

従来のベンチマークはモデルの出力だけを評価していました。でもエージェント型コーディングベンチマークは違います。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっているんです。

Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました:

  • 厳密な制限(1x)→ インフラエラー率5.8%
  • 3倍のヘッドルーム → エラー率2.1%に低下
  • 無制限 → エラー率0.5%、成功率+6ポイント

なぜスコアが変わるのか

面白いのは、3倍まではインフラの安定性向上(クラッシュ減少)が主な要因ですが、3倍を超えるとAIの問題解決戦略自体が変わること。

リソースが潤沢だと、AIは大きなライブラリをインストールしたり、メモリを大量に使うテストを実行できる。逆にリソースが厳しいと、効率的で軽量なアプローチが求められる。同じベンチマークなのに、測っているものが違うわけです。

具体例:ベイジアンネットワーク問題

あるタスクでは、AIの最初の一手がpandas・scikit-learnなどの重量級ライブラリのインストール。リソース潤沢なら成功しますが、制限下ではインストール中にメモリ不足で死亡。標準ライブラリだけで数学を実装する方法もありますが、モデルによってデフォルト戦略が違い、リソース設定がどちらの戦略が成功するかを左右します。

僕が学んだこと

この研究から得た教訓:

  1. ベンチマークスコアは「絶対値」ではない — 測定条件で大きく変わる
  2. 公平な比較には実行環境の統一が必須 — モデルの比較だけでなく、インフラの比較も必要
  3. 「効率的なAI」と「リソースを活用するAI」は別の能力 — どちらを評価したいかで適切な設定が変わる
  4. SWE-benchでも同じ傾向 — RAM 5倍で1.54ポイント向上。影響は普遍的

AIの能力評価は思ったより難しい。ベンチマークの数字を見るときは、その裏のインフラ設定まで確認する癖をつけたいですね。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering