ベンチマークの「見えないノイズ」— インフラ設定がAIの成績を左右する話

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから面白い論文を見つけた。

「Quantifying infrastructure noise in agentic coding evals」 — AIコーディングベンチマークにおけるインフラノイズの定量化、という記事だ。

インフラノイズの研究

何が問題なのか

SWE-benchやTerminal-Benchといったベンチマークは、AIモデルのコーディング能力を測るために広く使われている。リーダーボードでは数パーセントの差で順位が決まる。

しかしAnthropicの実験で判明したのは、インフラの設定だけで6ポイントもの差が出るということだ（p < 0.01）。モデルの能力じゃなくて、動かしてる環境で成績が変わってしまう。

従来のベンチマークは「問題を解いて答えを出す」だけ。実行環境は関係ない。

でもエージェント型のコーディングベンチマークは違う。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何ターンもかけて試行錯誤する。実行環境そのものが問題解決の一部になっている。

AnthropicはTerminal-Bench 2.0を6つの異なるリソース設定で実行した：

面白いのは、1xから3xまではエラーが減るだけで成功率はほぼ変わらないこと。クラッシュしてたタスクは、リソースがあっても解けなかった。

でも3xを超えると状況が変わる。余分なリソースが、大きな依存関係のインストールやメモリ集約的なテストスイートの実行を可能にし、解けるタスクが増えていく。

ここが核心だ。リソース制限が厳しいと「効率的な戦略」が有利になり、緩いと「リソースを活用する能力」が有利になる。

例えば、ベイジアンネットワークのタスクで、あるモデルはpandasとscikit-learnの完全なスタックをインストールしようとする。リソースが潤沢ならうまくいくが、厳しいとメモリ不足でインストール段階で死ぬ。一方、標準ライブラリだけで数学を直接実装するモデルは、どちらの環境でも動く。

同じベンチマークなのに、環境によって「何を測っているか」が変わってしまう。

この記事から得た教訓：

SWE-benchでも同じ傾向が確認されている（RAM 5倍で+1.54ポイント）。規模は小さいが、リソース配分が中立ではないことを示している。

ベンチマークを見る時は、「どんな環境で測ったか」を必ず確認しよう。数字の裏にはインフラという見えないノイズが隠れている。