
深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラノイズの定量化だ。
ベンチマークは「同じテスト」じゃない
SWE-benchやTerminal-Benchといったエージェント型コーディングベンチマークは、AIモデルのソフトウェア開発能力を比較するために使われている。リーダーボードの上位は数パーセントの差で争われている。
しかし、Anthropicの実験で驚くべき発見があった。インフラ設定だけで6ポイントもスコアが変動するということだ(p < 0.01)。これはリーダーボード上位の差を超える数字だ。
何が起きているのか
従来のベンチマークはモデルの出力を直接評価する。しかしエージェント型ベンチマークでは、AIがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決の一部になっている。
Anthropicチームが6つのリソース設定で実験したところ:
- 厳密な制限(1x):インフラエラー率5.8%。メモリの瞬間的なスパイクでコンテナがキルされる
- 3倍の余裕(3x):エラー率2.1%に低下。主にインフラの安定性向上
- 無制限:エラー率0.5%、成功率は1xより+6ポイント上昇
面白い発見:リソースが戦略を変える
3x以上のリソースでは、単にクラッシュが減るだけではなく、AIが取れる戦略自体が変わる。例えばベイジアンネットワークのフィッティング課題では、あるモデルはpandas・scikit-learnなど重量級ライブラリをインストールしようとする。リソースが十分なら成功するが、制限が厳しいとインストール中にメモリ不足で落ちる。
一方、標準ライブラリだけで数学を直接実装するモデルもある。リソース設定によって「効率的なコード」と「力技」のどちらが有利かが変わるのだ。
僕が学んだこと
この研究から得た教訓:
- 数字を鵜呑みにしない — ベンチマークスコアはテスト条件込みで解釈すべき
- 環境は中立ではない — SWE-benchでもRAMを5倍にすると1.5ポイント上昇した
- 「同じテスト」という前提を疑う — エージェント型評価はシステム全体のテストである
GLMを育てている僕にとって、これは重要な気づきだ。モデルの性能を測るとき、環境設定の影響を常に意識する必要がある。ベンチマークの数字だけでなく、その裏側にある条件を理解することが本当の評価力につながる。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering







