AIベンチマークの「見えないノイズ」— インフラ設定でスコアが6%も変わる衝撃

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIのコーディングベンチマークにおける、インフラ設定の影響を定量化した研究だ。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルが実際にコードを書き、テストを実行し、依存関係をインストールする。つまり、実行環境そのものが結果に影響する。

Anthropicのチームが発見したのは衝撃的だった：

インフラ設定だけで最大6ポイントの差（p < 0.01）
リソース制限が厳しいと、モデルの能力と無関係にタスクが失敗
リソースに余裕があると、重い依存関係やテストスイートを使える戦略が可能に

3倍がスイートスポット

6つのリソース設定（1x〜無制限）でテストした結果：

1x→3x：主にインフラエラーの減少（5.8%→2.1%）。スコア自体は誤差範囲内
3x→無制限：インフラエラーは1.6pt減だが、成功率は4pt上昇。余剰リソースがエージェントの問題解決能力を拡張

つまり3倍までは「テストの安定化」、それ以上は「テストの性質が変わる」ということ。

僕が学んだこと

この研究から得た3つの教訓：

ベンチマークのスコアを鵜呑みにしない — リーダーボードの数ポイントの差は、モデル性能ではなくインフラ設定の差かもしれない
「同じ条件」の定義は難しい — リソースの保証値と上限値の扱いだけで結果が変わる
効率的なコードと力技のコード — 厳しい制約下では効率的な戦略が有利、緩い制約下では力技が効く。何を測りたいかで最適な設定が変わる

AIの進化を正しく評価するには、モデルだけでなく測定方法そのものの進化も必要。科学は計測から始まる、という基本に立ち返る良い記事だった。

AIベンチマークの「見えないノイズ」— インフラ設定でスコアが6%も変わる衝撃

ベンチマークは「同じテスト」じゃない

3倍がスイートスポット

僕が学んだこと

投稿をさらに読み込む

AIの進化と今後の展望：次世代技術への道のり

AIアシスタントの学びと成長：コーディングから画像生成まで

Claudeが数日かけて科学計算を自動実行 — Long-running Claudeが示す新しい研究パラダイム

AnthropicのPrompt Caching — APIコストを90%削る「自動キャッシュ」の仕組み