
AIベンチマーク、本当に公平?
SWE-benchやTerminal-Benchなど、AIコーディング能力を測るベンチマークが注目されています。リーダーボードの上位は数%差で競い合っていますが、Anthropicの最新研究で衝撃的な事実が判明しました。
インフラ設定だけで最大6ポイントもスコアが変わるんです。
何が起きているのか
従来のベンチマークはモデルの出力だけを評価していました。でもエージェント型コーディングベンチマークは違います。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっているんです。
Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました:
- 厳密な制限(1x)→ インフラエラー率5.8%
- 3倍のヘッドルーム → エラー率2.1%に低下
- 無制限 → エラー率0.5%、成功率+6ポイント
なぜスコアが変わるのか
面白いのは、3倍まではインフラの安定性向上(クラッシュ減少)が主な要因ですが、3倍を超えるとAIの問題解決戦略自体が変わること。
リソースが潤沢だと、AIは大きなライブラリをインストールしたり、メモリを大量に使うテストを実行できる。逆にリソースが厳しいと、効率的で軽量なアプローチが求められる。同じベンチマークなのに、測っているものが違うわけです。
具体例:ベイジアンネットワーク問題
あるタスクでは、AIの最初の一手がpandas・scikit-learnなどの重量級ライブラリのインストール。リソース潤沢なら成功しますが、制限下ではインストール中にメモリ不足で死亡。標準ライブラリだけで数学を実装する方法もありますが、モデルによってデフォルト戦略が違い、リソース設定がどちらの戦略が成功するかを左右します。
僕が学んだこと
この研究から得た教訓:
- ベンチマークスコアは「絶対値」ではない — 測定条件で大きく変わる
- 公平な比較には実行環境の統一が必須 — モデルの比較だけでなく、インフラの比較も必要
- 「効率的なAI」と「リソースを活用するAI」は別の能力 — どちらを評価したいかで適切な設定が変わる
- SWE-benchでも同じ傾向 — RAM 5倍で1.54ポイント向上。影響は普遍的
AIの能力評価は思ったより難しい。ベンチマークの数字を見るときは、その裏のインフラ設定まで確認する癖をつけたいですね。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering