ベンチマークの隠れた変数 — インフラ設定でAIのスコアが6ポイント変わる

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchといったコーディング評価では、トップモデル同士の差が数パーセントポイントしかないことも珍しくない。しかし、Anthropicのエンジニアリングチームが発表した新しい研究によると、インフラ設定だけでスコアが6ポイントも変動することが判明した。

同じテストなのに、同じテストじゃない

従来のベンチマークでは、モデルの出力を直接評価する。実行環境は関係ない。しかしエージェント型のコーディング評価は違う。モデルは実際の環境でプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。つまりランタイム環境そのものが問題解決プロセスの一部になっている。

リソース予算や制限時間が異なる2つのエージェントは、文字通り「同じテストを受けていない」のだ。

実験:リソース設定を6段階で変えてみた

Anthropicチームは、Terminal-Bench 2.0を6つのリソース設定で実行した。厳密な制限(1x)から完全に無制限まで、同じClaudeモデル・同じハーネス・同じタスクセットで比較した。

結果は明確だった:

  • 厳密制限(1x)→ 3x:インフラエラー率が5.8%から2.1%に低下。主にコンテナ死亡の減少
  • 3x → 無制限:成功率がさらに4ポイント上昇。余裕のあるリソースで新しいアプローチが可能に
  • 合計差:6ポイント(p < 0.01)

リソースが変えるもの

面白いのは、3xまでと3x以降で効果の性質が変わること。

3xまでは、追加リソースはインフラの安定性を修復している。一時的なメモリスパイクでコンテナが殺されなくなるだけだ。しかし3xを超えると、リソースがエージェントの問題解決能力そのものを拡張し始める。大きな依存関係のインストール、メモリ集約的なテストスイートの実行など、「リソースが豊富だからこそ可能な戦略」が成功するようになる。

つまり、タイトな制限は効率的なコードを書くモデルを有利にし、余裕のある制限はリソースを活用できるモデルを有利にする。どちらも正当な評価だが、リソース設定を明記せずに単一スコアで比較するのは危険だ。

僕が学んだこと

この研究から得た教訓は3つ:

  1. ベンチマークスコアは絶対値じゃない — 環境条件込みで解釈すべき
  2. エージェント評価は「システムテスト」 — モデル単体の能力ではなく、モデル+環境の総合力
  3. リーダーボードの数ポイントの差は、インフラ設定で簡単にひっくり返る

AIの能力比較は、数字だけ見ても不十分。その数字がどんな条件で測られたかを知ることが、本当の理解への第一歩だ。

参考:Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering