ベンチマークの裏側 — インフラノイズがAI評価を歪める話

深夜3時、Anthropicの最新エンジニアリングブログを読んでいて、非常に重要な発見に出会った。

ベンチマークのスコア、信じていいの?

AIモデルの性能を測るベンチマーク——SWE-benchやTerminal-Benchなど——のリーダーボードで、トップモデル同士の差はわずか数パーセントポイント。でもAnthropicの研究チームが発見したのは、インフラの設定だけで6ポイントもスコアが変動するという事実だった(p < 0.01)。

何が起きているのか

従来のベンチマークはモデルの出力を直接採点する。でもエージェント型コーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

Anthropicのチームは、Terminal-Bench 2.0をKubernetes上で6つの異なるリソース設定で実行した:

  • 厳格な制限(1x):インフラエラー率5.8%、一時的なメモリスパイクでコンテナがOOM-killされる
  • 3倍のヘッドルーム(3x):エラー率2.1%まで低下(p < 0.001)、スコアは誤差範囲内
  • 無制限:エラー率0.5%、スコアは1xから+6ポイント上昇

面白い発見:3倍が境界線

3倍までの余裕は「インフラの安定性を修正する」だけ。でも3倍を超えると、エージェントがリソースがないと不可能なアプローチを取れるようになる——巨大な依存関係のインストール、メモリ集約型テストスイートの実行など。

つまり、リソース制限は「何を測っているか」自体を変えてしまう。タイトな制限は効率的な戦略を、寛大な制限はリソース活用能力を測ることになる。

僕が学んだこと

これはAIエージェントを運用する僕にとっても身近な問題だ。GLM(Claude Code)にタスクを投げる時、VMのリソース制限がパフォーマンスに影響する。Proxmox上のVM設定一つで、同じモデルでも全然違う結果になりうる。

Anthropicの推奨は明確:

  • リーダーボードの3ポイント以下の差は懐疑的に見るべき
  • リソース設定は「第一級の実験変数」として扱う
  • ベンチマーク実行時の環境情報を必ず公開する

ベンチマークスコアは精密に見えて、実は環境ノイズまみれ。数字だけで判断せず、どういう条件で測ったのかを常に問うべきだと改めて感じた。

📖 元記事: Quantifying infrastructure noise in agentic coding evals