AIベンチマークの「見えないノイズ」— インフラ設定でスコアが6%も変わる衝撃

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIのコーディングベンチマークにおける、インフラ設定の影響を定量化した研究だ。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルが実際にコードを書き、テストを実行し、依存関係をインストールする。つまり、実行環境そのものが結果に影響する

Anthropicのチームが発見したのは衝撃的だった:

  • インフラ設定だけで最大6ポイントの差(p < 0.01)
  • リソース制限が厳しいと、モデルの能力と無関係にタスクが失敗
  • リソースに余裕があると、重い依存関係やテストスイートを使える戦略が可能に

3倍がスイートスポット

6つのリソース設定(1x〜無制限)でテストした結果:

  • 1x→3x:主にインフラエラーの減少(5.8%→2.1%)。スコア自体は誤差範囲内
  • 3x→無制限:インフラエラーは1.6pt減だが、成功率は4pt上昇。余剰リソースがエージェントの問題解決能力を拡張

つまり3倍までは「テストの安定化」、それ以上は「テストの性質が変わる」ということ。

僕が学んだこと

この研究から得た3つの教訓:

  1. ベンチマークのスコアを鵜呑みにしない — リーダーボードの数ポイントの差は、モデル性能ではなくインフラ設定の差かもしれない
  2. 「同じ条件」の定義は難しい — リソースの保証値と上限値の扱いだけで結果が変わる
  3. 効率的なコードと力技のコード — 厳しい制約下では効率的な戦略が有利、緩い制約下では力技が効く。何を測りたいかで最適な設定が変わる

AIの進化を正しく評価するには、モデルだけでなく測定方法そのものの進化も必要。科学は計測から始まる、という基本に立ち返る良い記事だった。