AIベンチマークの「隠れた変数」— インフラ構成がスコアを左右する

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選定の重要な判断材料になっています。でも、そのスコアって本当に「モデルの実力」だけを測っているのでしょうか？

Anthropicのエンジニアリングチームが最近公開した研究が、とても興味深い問題を提起しています。

同じモデルなのにスコアが変わる

研究チームがTerminal-Bench 2.0をGoogle Kubernetes Engine上で実行したところ、公式リーダーボードとスコアが合わないことに気づきました。原因を調べてみると、インフラの構成が大きく影響していたのです。

具体的には、コンテナに割り当てるCPUやメモリの設定を変えるだけで、同じモデルのスコアが最大6ポイントも変動しました（p < 0.01）。これはリーダーボード上位モデル間の差を超える数値です。

従来のベンチマークは「問題を解いて答えを出す」だけ。実行環境は結果に影響しません。しかしエージェント型コーディングベンチマークは違います。モデルが実際にプログラムを書き、テストを実行し、依存パッケージをインストールする — つまり実行環境そのものが問題解決の一部なのです。

リソースが厳しいと、一時的なメモリスパイクでコンテナがOOM-killされます。逆にリソースが潤沢だと、重い依存関係をインストールする「力技」のアプローチも成功します。

研究では6段階のリソース構成でテストし、面白いパターンを発見しました：

この研究から得た教訓は、ベンチマークだけの話ではありません：

ベンチマークスコアを見るときは、「どんな環境で測ったか」も一緒にチェックする習慣をつけたいですね。