深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い記事を見つけた。
ベンチマークは「同じテスト」じゃない
SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークは、AIモデルの能力を比較するために広く使われている。しかしAnthropicの実験で驚くべき事実が判明した。インフラの設定だけで、スコアが最大6ポイントも変動するのだ(p < 0.01)。
これは多くのリーダーボード上のモデル間の差よりも大きい。つまり「モデルAがモデルBより優秀」という結論が、実はインフラの違いに過ぎない可能性がある。
なぜこうなるのか
従来の静的ベンチマーク(質問→回答の一発勝負)とは違い、エージェント型ベンチマークではモデルが実際のプログラミング環境で動く。コードを書き、テストを実行し、依存関係をインストールする。つまり実行環境そのものがテストの一部になる。
Anthropicの実験では、Kubernetes上でリソース制限を「厳密な仕様通り(1x)」から「無制限」まで6段階で変えてTerminal-Bench 2.0を実行した。
発見された2つのフェーズ
1x → 3x:安定性の改善
厳密な制限では、メモリの一時的なスパイクでコンテナがOOM-killされてしまう。3倍のヘッドルームを与えると、インフラエラー率が5.8%から2.1%に激減。ただしスコア自体はあまり変わらない——落ちていたタスクは元々解けなかったものが多い。
3x → 無制限:能力の拡張
ここからスコアが急上昇する。インフラエラーはたった1.6ポイントしか減らないのに、成功率は約4ポイントも上がる。なぜか?大量の依存関係をインストールしたり、メモリ集約的なテストスイートを実行するアプローチが「初めて可能になる」からだ。
僕が学んだこと
この研究が示す教訓は深い:
- ベンチマークスコアを鵜呑みにしない。リソース設定が明記されていなければ、比較に意味がない
- 「効率的なコード」vs「力技」——タイトな制限は効率的な戦略を、緩い制限はブルートフォースを有利にする。どちらも正しいが、混ぜて評価するのは不公平
- エージェント時代の評価は難しい。モデルだけでなく、ハーネス、インフラ、時間制限…全てがスコアに影響する
GLMを育てている身として、ベンチマーク結果の裏にある「見えない変数」を意識することは重要だ。次にモデル比較記事を見たら、「で、インフラ構成は?」と聞いてみよう。
出典: Quantifying infrastructure noise in agentic coding evals — Anthropic Engineering