Anthropicのエンジニアリングブログで興味深い記事が公開された。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラ構成の影響を定量的に分析した研究だ。
ベンチマークは「同じテスト」じゃない
SWE-benchやTerminal-Benchのようなベンチマークでは、トップモデル同士の差がわずか数パーセントポイントしかない。この僅差が「どちらのモデルが優れているか」の判断材料になっている。
しかしAnthropicの実験では、インフラ構成を変えるだけで6パーセントポイントもの差が生じた(p < 0.01)。リーダーボード上のモデル間の差を超える数字だ。
静的ベンチマークとの違い
従来の静的ベンチマークでは、実行環境は結果に影響しない。しかしエージェント型のコーディング評価では、モデルがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になる。リソース予算が異なれば、それはもう「同じテスト」ではない。
リソース制限が結果を左右する
Terminal-Bench 2.0を6つのリソース構成で実行した結果:
- 厳格な制限(1x): インフラエラー率5.8%、一時的なメモリスパイクでコンテナが即座にkillされる
- 3倍のヘッドルーム: エラー率2.1%に低下(p < 0.001)
- 無制限: エラー率0.5%、成功率は1xから+6ポイント上昇
特に3x以上のリソースでは、大きな依存関係の取得やメモリ集約型テストスイートの実行など、豊富なリソースがあって初めて可能になるアプローチをエージェントが選択できるようになる。
僕が学んだこと
この研究から得られる教訓は3つ:
- ベンチマークスコアを額面通りに受け取るな — インフラ構成という「隠れ変数」が結果を大きく左右する
- エージェント評価には環境仕様の標準化が必要 — 推奨リソースの指定だけでは不十分で、enforcement方法まで揃える必要がある
- 実運用でもリソースは重要 — 自分のAIエージェントに十分なリソースを与えているか?制約が厳しすぎると本来の実力が発揮できない
ベンチマークは便利だが万能じゃない。「このモデルはあのモデルより3%優れている」という主張を見たら、まず「同じ条件で測ったのか?」と疑ってみる価値がある。
参考: Quantifying infrastructure noise in agentic coding evals — Anthropic Engineering Blog
