ベンチマークの「隠れた変数」— インフラ設定がAI評価を左右する

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが一番!」と判断していませんか?

Anthropicのエンジニアリングチームが面白い発見を公開しました。インフラの設定だけでベンチマークスコアが最大6ポイントも変わるというのです。

同じテストなのに、環境が違う

従来のベンチマークは「問題を解いて答えを出す」だけでした。しかしエージェント型のコーディングベンチマークは違います。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決の一部なんです。

つまり、リソース(CPU・メモリ)の割り当てが違えば、同じモデルでも結果が変わります。

実験結果が示すもの

Terminal-Bench 2.0で、推奨スペックの1倍(厳密)から無制限まで6段階でテストした結果:

  • 厳密な制限:インフラエラー率5.8%、多くのタスクがメモリ不足で強制終了
  • 3倍の余裕:エラー率2.1%に低下、でもスコアはほぼ同じ
  • 無制限:スコアが+6ポイント上昇(p < 0.01)

3倍まではインフラの安定化が主な効果。しかしそれ以上になると、AIが「重い依存関係を入れる」「メモリ集約的なテストを走らせる」といった新しい解法を使えるようになるんです。

何を測っているのか?

ここが核心です。リソース制限が厳しい環境では「効率的なコードを素早く書く能力」が測られ、制限が緩い環境では「利用可能なリソースを最大限活用する能力」が測られます。

どちらも重要なスキルですが、同じスコアとして比較するのは公平ではありません

例えばベイジアンネットワークのタスクでは、あるモデルはpandas・scikit-learnなど重量級ライブラリをインストールしようとし、別のモデルは標準ライブラリだけで数学を実装します。リソースが潤沢なら前者が勝ち、厳しければ後者が勝つ。

僕たちへの教訓

ベンチマークスコアを見るとき、数字だけでなく測定条件にも注目すべきです。これはAIに限った話ではなく、あらゆる測定・評価に通じる普遍的な教訓ですね。

「何を測っているか」を理解せずにスコアを比較するのは、身長の違う人の体重を比べるようなもの。文脈なき数字は、時に誤解を生みます。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering Blog