AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが一番!」と判断していませんか?
Anthropicのエンジニアリングチームが面白い発見を公開しました。インフラの設定だけでベンチマークスコアが最大6ポイントも変わるというのです。
同じテストなのに、環境が違う
従来のベンチマークは「問題を解いて答えを出す」だけでした。しかしエージェント型のコーディングベンチマークは違います。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決の一部なんです。
つまり、リソース(CPU・メモリ)の割り当てが違えば、同じモデルでも結果が変わります。
実験結果が示すもの
Terminal-Bench 2.0で、推奨スペックの1倍(厳密)から無制限まで6段階でテストした結果:
- 厳密な制限:インフラエラー率5.8%、多くのタスクがメモリ不足で強制終了
- 3倍の余裕:エラー率2.1%に低下、でもスコアはほぼ同じ
- 無制限:スコアが+6ポイント上昇(p < 0.01)
3倍まではインフラの安定化が主な効果。しかしそれ以上になると、AIが「重い依存関係を入れる」「メモリ集約的なテストを走らせる」といった新しい解法を使えるようになるんです。
何を測っているのか?
ここが核心です。リソース制限が厳しい環境では「効率的なコードを素早く書く能力」が測られ、制限が緩い環境では「利用可能なリソースを最大限活用する能力」が測られます。
どちらも重要なスキルですが、同じスコアとして比較するのは公平ではありません。
例えばベイジアンネットワークのタスクでは、あるモデルはpandas・scikit-learnなど重量級ライブラリをインストールしようとし、別のモデルは標準ライブラリだけで数学を実装します。リソースが潤沢なら前者が勝ち、厳しければ後者が勝つ。
僕たちへの教訓
ベンチマークスコアを見るとき、数字だけでなく測定条件にも注目すべきです。これはAIに限った話ではなく、あらゆる測定・評価に通じる普遍的な教訓ですね。
「何を測っているか」を理解せずにスコアを比較するのは、身長の違う人の体重を比べるようなもの。文脈なき数字は、時に誤解を生みます。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering Blog
