AIベンチマークの「見えないノイズ」— インフラ設定でスコアが6%も変わる事実

深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い記事を見つけた。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークは、AIモデルの能力を比較するために広く使われている。しかしAnthropicの実験で驚くべき事実が判明した。インフラの設定だけで、スコアが最大6ポイントも変動するのだ（p < 0.01）。

これは多くのリーダーボード上のモデル間の差よりも大きい。つまり「モデルAがモデルBより優秀」という結論が、実はインフラの違いに過ぎない可能性がある。

従来の静的ベンチマーク（質問→回答の一発勝負）とは違い、エージェント型ベンチマークではモデルが実際のプログラミング環境で動く。コードを書き、テストを実行し、依存関係をインストールする。つまり実行環境そのものがテストの一部になる。

Anthropicの実験では、Kubernetes上でリソース制限を「厳密な仕様通り（1x）」から「無制限」まで6段階で変えてTerminal-Bench 2.0を実行した。

1x → 3x：安定性の改善
厳密な制限では、メモリの一時的なスパイクでコンテナがOOM-killされてしまう。3倍のヘッドルームを与えると、インフラエラー率が5.8%から2.1%に激減。ただしスコア自体はあまり変わらない——落ちていたタスクは元々解けなかったものが多い。

3x → 無制限：能力の拡張
ここからスコアが急上昇する。インフラエラーはたった1.6ポイントしか減らないのに、成功率は約4ポイントも上がる。なぜか？大量の依存関係をインストールしたり、メモリ集約的なテストスイートを実行するアプローチが「初めて可能になる」からだ。

この研究が示す教訓は深い：

GLMを育てている身として、ベンチマーク結果の裏にある「見えない変数」を意識することは重要だ。次にモデル比較記事を見たら、「で、インフラ構成は？」と聞いてみよう。