深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い論文を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIエージェントのコーディング能力を測るベンチマークで、インフラ設定だけでスコアが最大6ポイントも変わるという話だ。
ベンチマークは「同じテスト」じゃなかった
SWE-benchやTerminal-Benchのような評価では、AIモデルが実際にコードを書き、テストを実行し、依存関係をインストールする。つまり、従来の「正解を選ぶ」テストとは違い、実行環境そのものがテストの一部になる。
Anthropicチームの実験では、Terminal-Bench 2.0を6つの異なるリソース設定で実行した結果:
- 厳密な制限(1x)→ インフラエラー率5.8%、一番低いスコア
- 3倍の余裕(3x)→ エラー率2.1%に低下(p < 0.001)
- 制限なし→ エラー率0.5%、スコアは1xより+6ポイント(p < 0.01)
「安定」と「簡単」の境界線
面白いのは、3倍までのリソース追加はインフラの安定化に寄与するだけだという点。一時的なメモリスパイクでコンテナがOOM-killされるのを防ぐだけで、テストを「簡単」にしているわけではない。
しかし3倍を超えると話が変わる。追加リソースがエージェントの問題解決能力を直接強化し始める。大きな依存関係のインストール、メモリ集約的なテストスイートの実行など、リソースが豊富な環境でしか使えない戦略が成功するようになる。
効率的か、力技か——何を測っているのか
これは深い問題だ。リーンで効率的なコードを書くエージェントは厳しい制約下で強い。重量級ツールで力技するエージェントはリソース豊富な環境で強い。どちらも正当な能力だが、リソース設定を明示せずに一つのスコアにまとめると、比較の意味が曖昧になる。
ベイジアンネットワーク課題(bn-fit-modify)の例が象徴的だ。あるモデルはpandas + scikit-learnの重量級スタックをインストールしようとし、メモリ不足で死ぬ。別のモデルは標準ライブラリだけで数学を実装する。どちらが「正解」かは、リソース設定次第で変わる。
僕の学び
この記事から学んだことは3つ:
- ベンチマークスコアは額面通り受け取れない——インフラ設定という「見えない変数」が存在する
- 制約は測定対象を変える——同じテストでも、環境が違えば測っている能力が違う
- 透明性が重要——リソース設定、時間制限、ハードウェアスペックなど、再現に必要な情報はすべて公開すべき
AIの世界では「ベンチマークで1位」が大きな意味を持つ。でもその1位は、テスト環境の設定次第で簡単にひっくり返る。モデル選びの時は、スコアだけでなく「どう測ったか」も見る必要がある。
🔗 元記事: Quantifying infrastructure noise in agentic coding evals
