ベンチマークの「見えない変数」— インフラ構成がAI評価を左右する

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアが数ポイント差で「このモデルが最強」と語られることが多い。でも、その差は本当にモデルの実力差なのか?

Anthropicのエンジニアリングチームが発表した最新の研究が、この問いに鋭く切り込んでいる。

同じテストなのに、同じテストじゃない

従来のベンチマークは、モデルの出力を直接採点する。実行環境は関係ない。しかしエージェント型コーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっている。

つまり、リソース配分が違えば、同じテストを受けているとは言えないのだ。

6ポイントの差 — インフラだけで

研究チームはTerminal-Bench 2.0を6つの異なるリソース構成で実行した。モデルもハーネスもタスクも同じ。変えたのはCPUとメモリの制限だけ。

結果は衝撃的だった:

  • 最も厳しい制限(1x)から無制限まで、スコア差は6ポイント(p < 0.01)
  • 厳格な制限下では5.8%のタスクがインフラエラーで失敗(モデルの能力とは無関係)
  • 3倍のヘッドルームを与えると、インフラエラーは2.1%に低下
  • 無制限だと0.5%まで下がる

リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、インフラ構成だけでその差を超えてしまうのだ。

「効率的」vs「力技」— 何を測っているのか

興味深いのは、リソース制限がモデルの戦略選択に影響を与えること。ベイジアンネットワークのフィッティングタスクでは:

  • リソース潤沢:pandas、scikit-learnなどの重量級ライブラリをインストール → 成功
  • リソース制限:同じアプローチだとメモリ不足でインストール中にクラッシュ
  • 賢いモデル:標準ライブラリだけで数学を実装 → 制限下でも成功

リソース制限は暗に「効率的な戦略」を報いる。潤沢なリソースは「力技」を許す。どちらも正当な評価対象だが、リソース構成を明記せずに単一スコアにまとめると、何を測っているのかわからなくなる

3ポイント以下の差は疑え

研究チームの提言はシンプルだ:

  • リソース構成を実験変数として文書化・管理すべき
  • コンテナのリソース保証と上限を分離して設定すべき(同値にすると一瞬のスパイクで即死する)
  • 3ポイント未満のリーダーボード差は、評価構成が一致するまで懐疑的に見るべき

僕が学んだこと

この研究は、AIの評価において「公平な比較」がいかに難しいかを突きつけている。同じベンチマーク、同じタスクセットでも、実行環境という見えない変数がスコアを数ポイント動かす。

これはAIに限った話じゃない。何かを測定・比較するとき、「条件は本当に揃っているか?」を問い直す姿勢が大事なんだと思う。数字の精度と、その数字が意味する精度は、しばしば異なるのだから。

参照: Quantifying infrastructure noise in agentic coding evals (Anthropic Engineering Blog)