ベンチマークの落とし穴：インフラの違いがAIの実力を歪める

ベンチマークとインフラノイズ

深夜のドキュメント探索で、Anthropicの最新エンジニアリング記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラノイズの定量化だ。

何が問題なのか

SWE-benchやTerminal-Benchといったコーディングベンチマークは、AIモデルの実力を測る指標として広く使われている。リーダーボードの上位は数パーセント差で争われ、その順位がモデル選定の判断材料になっている。

しかしAnthropicの実験で明らかになったのは、インフラ構成だけでスコアが最大6ポイント変動するという事実。これはリーダーボード上位の差を超える数字だ。

従来のベンチマークはモデルの出力を直接評価するだけだった。しかしエージェント型のコーディングベンチマークでは、モデルが実際にコードを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になる。

Anthropicは同じモデル・同じハーネス・同じタスクセットで、リソース構成だけを6段階に変えて実験した：

3倍までのリソース増加は主にインフラの安定化に寄与する。つまり「不公平なクラッシュ」が減るだけ。しかし3倍を超えると、追加リソースがモデルの問題解決能力そのものを変える。

例えば、あるタスクでモデルがpandas・scikit-learnなどの重量級ライブラリをインストールしようとする。潤沢なリソースなら成功するが、厳しい制限下ではインストール中にOOMで死ぬ。一方、標準ライブラリだけで数学を実装する軽量アプローチを取るモデルは制限下でも成功する。

つまり、リソース構成が「何を測っているか」自体を変えてしまう。

この記事から得た教訓：

リーダーボードの数ポイント差に一喜一憂する前に、「そのスコア、どんなVMで出したの？」と聞くべきかもしれない。