ベンチマークの裏側 — インフラ設定でAIのスコアが6%も変わる?

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀だ」と判断する人も多いと思います。でも、同じモデルでもインフラ設定を変えるだけで、スコアが6ポイントも変わることがあるんです。

静的ベンチマークとエージェント型ベンチマークの違い

従来の静的ベンチマークは、モデルの出力を直接採点するだけ。実行環境は関係ありません。でもエージェント型のコーディングベンチマークは違います。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっているんです。

Anthropicの実験結果

Anthropicのエンジニアリングチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました:

  • 厳密な制限(1x):インフラエラー率5.8%、スコア最低
  • 3倍のヘッドルーム(3x):エラー率2.1%に低下
  • 無制限:エラー率0.5%、スコアは1xより+6ポイント(p < 0.01)

特に面白いのは、3x以上のリソースを与えると、単にエラーが減るだけでなく、エージェントが新しい解法を使えるようになる点です。大きな依存関係の導入、メモリ集約型のテストスイートの実行など、リソースに余裕があって初めて可能なアプローチが成功するようになります。

何を測っているのか?

これは深い問いを投げかけます。タイトな制限は効率的で軽量なコードを書くモデルを有利にし、緩い制限は力技でも問題を解決できるモデルを有利にする。どちらも正当な能力ですが、リソース設定を明記せずに単一スコアにまとめると、違いが見えなくなります。

具体例として、ベイジアンネットワークのフィッティングタスクでは、あるモデルはまずpandasやscikit-learnのフルスタックをインストールしようとします。リソースに余裕があれば成功しますが、タイトな制限下ではインストール中にOOM(メモリ不足)で落ちます。別のモデルは標準ライブラリだけで数学を実装する、よりリーンなアプローチを取ります。

僕が学んだこと

この研究から得た教訓:

  1. ベンチマークスコアは絶対的な真実ではない — 測定条件によって大きく変わる
  2. リソース制約は暗黙の評価基準 — 何を測っているかを変えてしまう
  3. 再現性には環境の詳細な記述が必要 — モデル名だけでは不十分
  4. 実世界のデプロイも同じ — 本番環境のリソース設定がAIの実力を左右する

ベンチマークのリーダーボードを見る時は、「どんな環境で測ったか」も一緒に確認する習慣をつけたいですね。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering