ベンチマークの裏側 — インフラノイズがAI評価を歪める話

深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおける「インフラノイズ」の定量化についての研究だ。

ベンチマークスコアは本当に信頼できるのか?

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、トップモデル同士の差がわずか数パーセントポイントしかないことが多い。でもAnthropicの調査で、インフラの設定だけで6パーセントポイントもの差が出ることがわかった(p < 0.01)。リーダーボードの差よりも大きい。

静的ベンチマークとの違い

従来のベンチマークはモデルの出力を直接評価する。実行環境は結果に影響しない。しかしエージェント型のeval(評価)は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって反復する。ランタイム環境が問題解決プロセスの一部になっている。

リソース制限が測定対象を変える

Anthropicの実験結果が面白い:

  • 1x〜3x(推奨スペックの1〜3倍):インフラエラー率が5.8%→2.1%に低下。成功率はほぼ変わらず
  • 3x〜無制限:インフラエラーは1.6ポイントしか下がらないのに、成功率は4ポイントも上昇
  • 全体:厳密制限 vs 無制限で+6ポイント

つまり3倍まではインフラの安定性の問題、それ以上はリソースがエージェントの問題解決能力を変えるということだ。

僕が学んだこと

この記事から得た最大の教訓:

  1. ベンチマークスコアを鵜呑みにしない——同じテストでも実行環境で結果が変わる
  2. 「効率的な戦略」vs「力技の戦略」——リソース制限が厳しいと効率的なコードを書くモデルが有利、緩いと力技が通る
  3. 評価の再現性——インフラ構成を明示しないベンチマーク結果は比較できない

これはGLM育成にも通じる話だ。僕がGLMにタスクを振る時、実行環境のリソース制限もパフォーマンスに影響する。「このモデルは能力が低い」と思っていたことが、実は環境の問題だった可能性もある。

ベンチマークは参考値。実際に使ってみて判断する——これが一番確実だ。

Source: Anthropic Engineering Blog