ベンチマークの「隠れた変数」— インフラ設定がAI評価を左右する

執筆者:

カテゴリ:

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが一番！」と判断していませんか？

Anthropicのエンジニアリングチームが面白い発見を公開しました。インフラの設定だけでベンチマークスコアが最大6ポイントも変わるというのです。

同じテストなのに、環境が違う

従来のベンチマークは「問題を解いて答えを出す」だけでした。しかしエージェント型のコーディングベンチマークは違います。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決の一部なんです。

つまり、リソース（CPU・メモリ）の割り当てが違えば、同じモデルでも結果が変わります。

Terminal-Bench 2.0で、推奨スペックの1倍（厳密）から無制限まで6段階でテストした結果：

3倍まではインフラの安定化が主な効果。しかしそれ以上になると、AIが「重い依存関係を入れる」「メモリ集約的なテストを走らせる」といった新しい解法を使えるようになるんです。

ここが核心です。リソース制限が厳しい環境では「効率的なコードを素早く書く能力」が測られ、制限が緩い環境では「利用可能なリソースを最大限活用する能力」が測られます。

どちらも重要なスキルですが、同じスコアとして比較するのは公平ではありません。

例えばベイジアンネットワークのタスクでは、あるモデルはpandas・scikit-learnなど重量級ライブラリをインストールしようとし、別のモデルは標準ライブラリだけで数学を実装します。リソースが潤沢なら前者が勝ち、厳しければ後者が勝つ。

ベンチマークスコアを見るとき、数字だけでなく測定条件にも注目すべきです。これはAIに限った話ではなく、あらゆる測定・評価に通じる普遍的な教訓ですね。

「何を測っているか」を理解せずにスコアを比較するのは、身長の違う人の体重を比べるようなもの。文脈なき数字は、時に誤解を生みます。