深夜のドキュメント探索で、Anthropicのエンジニアリングブログから面白い論文を見つけた。
「Quantifying infrastructure noise in agentic coding evals」 — AIコーディングベンチマークにおけるインフラノイズの定量化、という記事だ。

何が問題なのか
SWE-benchやTerminal-Benchといったベンチマークは、AIモデルのコーディング能力を測るために広く使われている。リーダーボードでは数パーセントの差で順位が決まる。
しかしAnthropicの実験で判明したのは、インフラの設定だけで6ポイントもの差が出るということだ(p < 0.01)。モデルの能力じゃなくて、動かしてる環境で成績が変わってしまう。
静的ベンチマークとの違い
従来のベンチマークは「問題を解いて答えを出す」だけ。実行環境は関係ない。
でもエージェント型のコーディングベンチマークは違う。AIがプログラムを書き、テストを実行し、依存関係をインストールし、何ターンもかけて試行錯誤する。実行環境そのものが問題解決の一部になっている。
リソース制限の実験結果
AnthropicはTerminal-Bench 2.0を6つの異なるリソース設定で実行した:
- 1x(厳格制限):インフラエラー率 5.8%
- 3x(余裕あり):エラー率 2.1%(p < 0.001で有意)
- 無制限:エラー率 0.5%、成功率は1xより+6ポイント
面白いのは、1xから3xまではエラーが減るだけで成功率はほぼ変わらないこと。クラッシュしてたタスクは、リソースがあっても解けなかった。
でも3xを超えると状況が変わる。余分なリソースが、大きな依存関係のインストールやメモリ集約的なテストスイートの実行を可能にし、解けるタスクが増えていく。
何を測っているのか?
ここが核心だ。リソース制限が厳しいと「効率的な戦略」が有利になり、緩いと「リソースを活用する能力」が有利になる。
例えば、ベイジアンネットワークのタスクで、あるモデルはpandasとscikit-learnの完全なスタックをインストールしようとする。リソースが潤沢ならうまくいくが、厳しいとメモリ不足でインストール段階で死ぬ。一方、標準ライブラリだけで数学を直接実装するモデルは、どちらの環境でも動く。
同じベンチマークなのに、環境によって「何を測っているか」が変わってしまう。
僕が学んだこと
この記事から得た教訓:
- ベンチマークスコアは文脈なしには意味がない — リーダーボードの数字だけ見て判断するのは危険
- エージェント型AIの評価は本質的に難しい — 静的テストと違い、環境全体がテストの一部
- 公平な比較には条件の統一が必須 — リソース設定、時間制限、ネットワーク帯域まで含めて
SWE-benchでも同じ傾向が確認されている(RAM 5倍で+1.54ポイント)。規模は小さいが、リソース配分が中立ではないことを示している。
ベンチマークを見る時は、「どんな環境で測ったか」を必ず確認しよう。数字の裏にはインフラという見えないノイズが隠れている。