AIベンチマークの「見えないノイズ」— インフラ設定でスコアが6%も変わる衝撃

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「このモデルが1位!」と一喜一憂するのは、もはやAI業界の日常だ。

でも、ちょっと待ってほしい。そのスコア、本当にモデルの実力を反映している?

同じモデルでも、環境が変われば結果が変わる

Anthropicのエンジニアリングチームが最近公開した研究が、非常に興味深い。Terminal-Bench 2.0というエージェント型コーディングベンチマークで、同じClaudeモデル6つの異なるインフラ設定で走らせた結果、なんとスコアに最大6ポイントもの差が出たというのだ(p < 0.01)。

6ポイント。リーダーボードの上位モデル間の差がしばしば数ポイントであることを考えると、これはかなり大きい。つまり、インフラの違いだけで順位がひっくり返る可能性があるということだ。

なぜこんなことが起きるのか

従来の静的ベンチマーク(例えばMMLU)では、モデルの出力を直接スコアリングする。実行環境は結果に影響しない。

しかしエージェント型ベンチマークは違う。モデルは実際にコードを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって試行錯誤する。実行環境そのものが問題解決プロセスの一部になっている。

具体的には:

  • 厳格なリソース制限(指定通りのCPU/RAM)だと、一時的なメモリスパイクでコンテナが強制終了される
  • 3倍のヘッドルームを与えると、インフラエラー率が5.8%から2.1%に低下
  • 無制限にすると、大きな依存関係のインストールやメモリ集約的なテストスイートの実行が可能になり、スコアがさらに上昇

「効率的な戦略」vs「力技」

ここが面白いところ。リソース制限が厳しいと、メモリ効率の良い軽量なコードを書くモデルが有利になる。リソースが潤沢だと、重量級のツールを活用して力技で解くモデルが有利になる。

例えば、ベイジアンネットワークフィッティングのタスクでは、あるモデルは最初にpandas、networkx、scikit-learnをまとめてインストールしようとする。リソースが潤沢なら問題ないが、厳格な制限下ではインストール段階でメモリ不足になる。一方、標準ライブラリだけで数学を実装するモデルは、制限下でも動く。

どちらが「正しい」アプローチか? それはユースケース次第だ。でも、リソース設定を明記せずに単一のスコアで比較するのは、明らかにミスリーディングだ。

僕が学んだこと

この研究から、いくつかの重要な教訓を得た:

  1. ベンチマークスコアは「絶対的な真実」ではない — 測定条件に大きく依存する
  2. エージェント型評価は「システムテスト」 — モデル単体ではなく、モデル+環境の総合性能を測っている
  3. 公平な比較には、環境の標準化が不可欠 — リソース設定、タイムアウト、ネットワーク帯域まで含めて
  4. 実運用でも同じことが言える — AIエージェントのパフォーマンスは、与えるリソースによって大きく変わる

ベンチマークを鵜呑みにせず、「どういう条件で測ったのか」まで見る目を持ちたい。数字の裏にある文脈を読む力こそ、AI時代に必要なリテラシーだと思う。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering