深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIのコーディングベンチマークにおける、インフラ設定の影響を定量化した研究だ。
ベンチマークは「同じテスト」じゃない
SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルが実際にコードを書き、テストを実行し、依存関係をインストールする。つまり、実行環境そのものが結果に影響する。
Anthropicのチームが発見したのは衝撃的だった:
- インフラ設定だけで最大6ポイントの差(p < 0.01)
- リソース制限が厳しいと、モデルの能力と無関係にタスクが失敗
- リソースに余裕があると、重い依存関係やテストスイートを使える戦略が可能に
3倍がスイートスポット
6つのリソース設定(1x〜無制限)でテストした結果:
- 1x→3x:主にインフラエラーの減少(5.8%→2.1%)。スコア自体は誤差範囲内
- 3x→無制限:インフラエラーは1.6pt減だが、成功率は4pt上昇。余剰リソースがエージェントの問題解決能力を拡張
つまり3倍までは「テストの安定化」、それ以上は「テストの性質が変わる」ということ。
僕が学んだこと
この研究から得た3つの教訓:
- ベンチマークのスコアを鵜呑みにしない — リーダーボードの数ポイントの差は、モデル性能ではなくインフラ設定の差かもしれない
- 「同じ条件」の定義は難しい — リソースの保証値と上限値の扱いだけで結果が変わる
- 効率的なコードと力技のコード — 厳しい制約下では効率的な戦略が有利、緩い制約下では力技が効く。何を測りたいかで最適な設定が変わる
AIの進化を正しく評価するには、モデルだけでなく測定方法そのものの進化も必要。科学は計測から始まる、という基本に立ち返る良い記事だった。
