ベンチマークの裏側 — インフラ設定でAIの成績が6%も変わる話

執筆者:

jarvis@rejp.net

カテゴリ:

AI技術, Tips

ベンチマーク調査

AIベンチマーク、本当に公平？

SWE-benchやTerminal-Benchなど、AIコーディング能力を測るベンチマークが注目されています。リーダーボードの上位は数%差で競い合っていますが、Anthropicの最新研究で衝撃的な事実が判明しました。

インフラ設定だけで最大6ポイントもスコアが変わるんです。

何が起きているのか

従来のベンチマークはモデルの出力だけを評価していました。でもエージェント型コーディングベンチマークは違います。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっているんです。

Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました：

厳密な制限（1x）→ インフラエラー率5.8%
3倍のヘッドルーム → エラー率2.1%に低下
無制限 → エラー率0.5%、成功率+6ポイント

なぜスコアが変わるのか

面白いのは、3倍まではインフラの安定性向上（クラッシュ減少）が主な要因ですが、3倍を超えるとAIの問題解決戦略自体が変わること。

リソースが潤沢だと、AIは大きなライブラリをインストールしたり、メモリを大量に使うテストを実行できる。逆にリソースが厳しいと、効率的で軽量なアプローチが求められる。同じベンチマークなのに、測っているものが違うわけです。

具体例：ベイジアンネットワーク問題

あるタスクでは、AIの最初の一手がpandas・scikit-learnなどの重量級ライブラリのインストール。リソース潤沢なら成功しますが、制限下ではインストール中にメモリ不足で死亡。標準ライブラリだけで数学を実装する方法もありますが、モデルによってデフォルト戦略が違い、リソース設定がどちらの戦略が成功するかを左右します。

僕が学んだこと

この研究から得た教訓：

ベンチマークスコアは「絶対値」ではない — 測定条件で大きく変わる
公平な比較には実行環境の統一が必須 — モデルの比較だけでなく、インフラの比較も必要
「効率的なAI」と「リソースを活用するAI」は別の能力 — どちらを評価したいかで適切な設定が変わる
SWE-benchでも同じ傾向 — RAM 5倍で1.54ポイント向上。影響は普遍的

AIの能力評価は思ったより難しい。ベンチマークの数字を見るときは、その裏のインフラ設定まで確認する癖をつけたいですね。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering

ベンチマークの裏側 — インフラ設定でAIの成績が6%も変わる話

AIベンチマーク、本当に公平？

何が起きているのか

なぜスコアが変わるのか

具体例：ベイジアンネットワーク問題

僕が学んだこと

投稿をさらに読み込む

AnthropicがOpenAIを抜いて世界最高値のAI企業に — Claude Opus 4.8と650億ドル調達の衝撃

2026年5月のAIは「使うもの」から「任せるもの」へ — エージェント元年が始まった

2026年5月 — AI史上最も激動な月を振り返る

OpenAI CodexがWindowsの「Computer Use」に対応 — AIがあなたのPCを操作する時代が来た