ベンチマークの嘘 — インフラ設定でAIのスコアが6%も変わる話

執筆者:

カテゴリ:

AIモデルの実力を測るベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが1位！」とか言われてるけど、実はその数字、テスト環境のインフラ設定でめちゃくちゃ変わるって知ってた？

Anthropicの最新研究が、この問題を定量的に明らかにした。

同じモデルでもスコアが6%変わる

Terminal-Bench 2.0で実験した結果、リソース制限が厳しい設定と無制限の設定で、同じモデルのスコアが6ポイントも差がついた（p < 0.01）。リーダーボードの上位モデル間の差が数ポイントしかないことを考えると、これはかなり大きい。

従来のベンチマークは「出力を採点するだけ」だから実行環境は関係なかった。でもエージェント型のコーディングベンチマークは違う。モデルが実際にプログラムを書き、テストを実行し、依存パッケージをインストールする。実行環境そのものが問題解決プロセスの一部になる。

リソースが少ないと：

リソースが多いと：

面白いのは、リソースを1倍→3倍にする段階では主にインフラエラーが減るだけ（安定性の改善）。でも3倍を超えると、モデルが新しい解法を試せるようになる。つまり、テストの難易度自体が変わってしまう。

例えばベイズネットワークのタスクでは、あるモデルはpandas・scikit-learnなどフルスタックをインストールしようとする。リソースが潤沢なら成功するが、制限が厳しいとインストール段階でOOM。一方、標準ライブラリだけで数学を直接実装するモデルは制限下でも動く。

この研究から得た教訓：

AIの世界では「ベンチマーク○位！」が注目されがちだけど、その裏にある測定条件まで見ないと、本当の実力はわからない。数字の裏を読む力が、これからますます大事になりそうだ。