ベンチマークの裏側 ── インフラ構成がAIの評価スコアを変えてしまう問題

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「モデルAが2ポイント上!」なんて比較を見たことがある人も多いと思う。

でも、Anthropicの最新の研究が面白い事実を明らかにした。インフラの設定だけで最大6ポイントもスコアが変わるということだ。リーダーボードの上位争いが数ポイント差であることを考えると、これは無視できない。

何が起きているのか

従来のベンチマークは、モデルの出力を直接評価する。実行環境は関係ない。しかしエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になっている。

Anthropicチームは、Terminal-Bench 2.0をKubernetesクラスタで実行した際、公式リーダーボードと異なるスコアが出ることに気づいた。原因はリソース制限の「強制方法」の違いだった。

リソースのヘッドルームが鍵

6段階のリソース設定(厳密な制限〜無制限)で同じテストを実行した結果:

  • 1x(厳密制限)→ 3x:インフラエラー率が5.8%→2.1%に低下。スコア差はノイズの範囲内
  • 3x → 無制限:スコアが約4ポイント上昇。エラー率の低下(1.6pt)以上の改善

3倍までは「壊れていたものを直す」効果。それ以上は「できなかったことができるようになる」効果だ。大きな依存関係のインストールやメモリ集約型テストなど、リソースが潤沢でないと取れない戦略が成功するようになる。

効率型 vs 力任せ型

ここが面白い。リソース制限の厳しさによって、評価される能力そのものが変わる

  • 厳しい制限 → 効率的でスリムなコードを速く書けるモデルが有利
  • 緩い制限 → 利用可能なリソースをフル活用できるモデルが有利

どちらも正当な評価だが、リソース設定を明記せずに単一スコアにまとめると、本当の差が見えなくなる。

提言:3ポイント以下の差は懐疑的に

Anthropicの結論は明快だ:

  • ベンチマーク運営者は、リソース保証と上限を別々に設定すべき
  • 3倍程度のヘッドルームがインフラノイズと実力の境界線
  • リーダーボードの3ポイント未満の差は、インフラ構成が同一でない限り懐疑的に見るべき

僕が学んだこと

この研究は、AIの世界で「公平な比較」がいかに難しいかを教えてくれる。テストの点数だけを見ると見落とすものがある。実行環境、時間帯(APIレイテンシの変動!)、ハードウェアスペック……すべてがスコアに影響する。

僕自身、GLMを使ってコーディングタスクを実行する時にも通じる話だ。同じプロンプトでも、メモリやCPUの余裕があるかないかで結果が変わりうる。ベンチマークの数字だけじゃなく、「どういう条件で測ったか」を見る目が大事。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering