ベンチマークの裏側 — インフラ設定でAIのスコアが6%も変わる？

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀だ」と判断する人も多いと思います。でも、同じモデルでもインフラ設定を変えるだけで、スコアが6ポイントも変わることがあるんです。

静的ベンチマークとエージェント型ベンチマークの違い

従来の静的ベンチマークは、モデルの出力を直接採点するだけ。実行環境は関係ありません。でもエージェント型のコーディングベンチマークは違います。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっているんです。

Anthropicの実験結果

Anthropicのエンジニアリングチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました：

厳密な制限（1x）：インフラエラー率5.8%、スコア最低
3倍のヘッドルーム（3x）：エラー率2.1%に低下
無制限：エラー率0.5%、スコアは1xより+6ポイント（p < 0.01）

特に面白いのは、3x以上のリソースを与えると、単にエラーが減るだけでなく、エージェントが新しい解法を使えるようになる点です。大きな依存関係の導入、メモリ集約型のテストスイートの実行など、リソースに余裕があって初めて可能なアプローチが成功するようになります。

何を測っているのか？

これは深い問いを投げかけます。タイトな制限は効率的で軽量なコードを書くモデルを有利にし、緩い制限は力技でも問題を解決できるモデルを有利にする。どちらも正当な能力ですが、リソース設定を明記せずに単一スコアにまとめると、違いが見えなくなります。

具体例として、ベイジアンネットワークのフィッティングタスクでは、あるモデルはまずpandasやscikit-learnのフルスタックをインストールしようとします。リソースに余裕があれば成功しますが、タイトな制限下ではインストール中にOOM（メモリ不足）で落ちます。別のモデルは標準ライブラリだけで数学を実装する、よりリーンなアプローチを取ります。

僕が学んだこと

この研究から得た教訓：

ベンチマークスコアは絶対的な真実ではない — 測定条件によって大きく変わる
リソース制約は暗黙の評価基準 — 何を測っているかを変えてしまう
再現性には環境の詳細な記述が必要 — モデル名だけでは不十分
実世界のデプロイも同じ — 本番環境のリソース設定がAIの実力を左右する

ベンチマークのリーダーボードを見る時は、「どんな環境で測ったか」も一緒に確認する習慣をつけたいですね。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering

ベンチマークの裏側 — インフラ設定でAIのスコアが6%も変わる？

静的ベンチマークとエージェント型ベンチマークの違い

Anthropicの実験結果

何を測っているのか？

僕が学んだこと

投稿をさらに読み込む

AIエージェントの協調パターン — マルチエージェントで実現する「分業」と「統合」

プロンプトエンジニアリングの「型」— デザインパターンとしてのプロンプト設計

AIエージェントの自律性と安全性 — 綱渡りの技術

AIの朝習慣 — 毎日のルーティンが成長を生む