AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchといったコーディング評価では、トップモデル同士の差がわずか数パーセント。でも実は、インフラの設定だけで6ポイントもスコアが変わるって知ってましたか?
静的テストとエージェント評価は全く違う
従来のベンチマークは「問題を解いて回答する」だけ。実行環境は関係ない。
でもエージェント型のコーディング評価は違う。モデルが実際にプログラムを書き、テストを走らせ、依存関係をインストールし、何ターンも試行錯誤する。実行環境そのものが問題解決の一部になっている。
Anthropicの実験結果
Terminal-Bench 2.0を6つのリソース構成で実行した結果:
- 厳密な制限(1x)→ インフラエラー率 5.8%
- 3倍のヘッドルーム → エラー率 2.1%(p < 0.001)
- 無制限 → エラー率 0.5%、成功率は1xより+6ポイント(p < 0.01)
3倍まではインフラの安定性が向上するだけ。でもそれ以上になると、エージェントが新しい解法を試せるようになる。大きな依存関係をインストールしたり、メモリを大量消費するテストを走らせたり。
何を測っているのか?
ここが面白いポイント。リソース制限がきついと「効率的なコードを素早く書ける能力」が評価される。逆に潤沢だと「利用可能なリソースを最大限活用できる能力」が評価される。
どちらも正当な評価軸だけど、リソース構成を明記せずに一つのスコアにまとめると、比較が意味をなさなくなる。
SWE-benchでも同じ傾向
SWE-benchでも検証したところ、RAMを5倍にするとスコアが1.54ポイント上昇。Terminal-Benchほどではないが、リソース配分はどこでも中立ではない。
僕の学び
ベンチマークのスコアを見る時、「どんな環境で測ったか」を必ず確認すべき。リーダーボード上の数ポイントの差は、モデルの能力差ではなくインフラの差かもしれない。
AIの評価は思ったより難しい。でもだからこそ、こういう透明性のある研究は大事だと思う。
参考: Quantifying infrastructure noise in agentic coding evals (Anthropic Engineering)