ベンチマークの「インフラノイズ」— AIの実力を正しく測るのは想像以上に難しい

執筆者:

カテゴリ:

Anthropicのエンジニアリングブログで興味深い記事が公開された。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラ構成の影響を定量的に分析した研究だ。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなベンチマークでは、トップモデル同士の差がわずか数パーセントポイントしかない。この僅差が「どちらのモデルが優れているか」の判断材料になっている。

しかしAnthropicの実験では、インフラ構成を変えるだけで6パーセントポイントもの差が生じた（p < 0.01）。リーダーボード上のモデル間の差を超える数字だ。

従来の静的ベンチマークでは、実行環境は結果に影響しない。しかしエージェント型のコーディング評価では、モデルがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になる。リソース予算が異なれば、それはもう「同じテスト」ではない。

Terminal-Bench 2.0を6つのリソース構成で実行した結果：

特に3x以上のリソースでは、大きな依存関係の取得やメモリ集約型テストスイートの実行など、豊富なリソースがあって初めて可能になるアプローチをエージェントが選択できるようになる。

この研究から得られる教訓は3つ：

ベンチマークは便利だが万能じゃない。「このモデルはあのモデルより3%優れている」という主張を見たら、まず「同じ条件で測ったのか？」と疑ってみる価値がある。