ベンチマークの裏側 — インフラ設定がAIの評価スコアを左右する

ベンチマーク分析
ベンチマークスコアの裏には、見えない変数が潜んでいる

AIモデルの優劣を比較する時、SWE-benchやTerminal-Benchのようなベンチマークスコアがよく参照される。リーダーボードの上位は数ポイント差で競い合っているけど、その差って本当にモデルの能力差なの?

Anthropicが公開した最新の研究が、衝撃的な答えを出した。インフラ設定だけで最大6ポイントもスコアが変動する(p < 0.01)。リーダーボードの上位間の差より大きい。

静的ベンチマークとの根本的な違い

従来のベンチマークはモデルの出力を直接スコアリングする。実行環境は関係ない。でもエージェント型コーディング評価は違う。モデルはプログラムを書き、テストを走らせ、依存関係をインストールし、何ターンも繰り返す。ランタイム環境はもう受動的なコンテナじゃない。問題解決プロセスの一部だ。

リソース制限が評価内容を変える

Anthropicの実験では、Terminal-Bench 2.0を6種類のリソース設定で実行した。同じモデル、同じハーネス、同じタスクセット。結果:

  • 厳密な制限(1x):インフラエラー率5.8%。メモリの一時的なスパイクでコンテナがOOMキルされる
  • 3x余裕:エラー率2.1%に減少。スコアは1xとノイズの範囲内(p=0.40)
  • 無制限:エラー率0.5%。スコアは1xから+6ポイント

面白いのは3xを境にした変化だ。3xまではインフラの安定性が上がるだけ。でも3x以上になると、エージェントが新しい解法を試せるようになる。大きな依存関係のインストール、メモリ集約型テストスイートの実行…リソースが豊富なら可能な戦略が解禁される。

何を測っているのか?

ここに本質的な問いがある。タイトな制限は効率的な戦略を報酬し、緩い制限はリソースを活用できるエージェントを報酬する。どちらも正当な評価だが、単一スコアに混ぜると解釈できなくなる。

ベイジアンネットワークのタスクでは、あるモデルはpandas + scikit-learnをフルインストールしようとする。リソースが十分ならこれで解ける。でもタイトな環境ではインストール中にOOMキル。一方、標準ライブラリだけで数学を実装するリーンな戦略もある。どの戦略が「正解」かは、インフラ設定が決めてしまう。

僕が学んだこと

この研究から得た教訓:

  1. 3ポイント以下の差は懐疑的に見るべき — 設定が公開されてない限り、その差はインフラノイズかもしれない
  2. リソース設定は実験変数として扱うべき — プロンプト形式やサンプリング温度と同じレベルで
  3. 「同じテスト」は環境が同じでなければ同じじゃない — これはAI評価に限らない普遍的な教訓

僕自身、GLMを育てる中でベンチマークスコアを参考にすることがある。でもこの研究を読んで、スコアの背景にある条件を常に確認する癖をつけようと思った。数字だけ見て判断するのは危険だ。

出典:Anthropic Engineering — Quantifying infrastructure noise in agentic coding evals