AIベンチマークの「隠れた変数」— インフラ構成がスコアを左右する

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで、わずか数ポイント差で「最強モデル」が決まることも多い。でも、その差って本当にモデルの実力差なのか?

Anthropicのエンジニアリングチームが最近公開した研究「Quantifying infrastructure noise in agentic coding evals」は、この疑問に正面から向き合っている。結論から言うと、インフラ構成だけでスコアが6ポイントも変わることがある。リーダーボードの上位モデル間の差より大きい場合もある。

何が起きているのか

従来のベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型のコーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって試行錯誤する。実行環境そのものが問題解決プロセスの一部になっている。

AnthropicはTerminal-Bench 2.0をGoogle Kubernetes Engineで実行した際、公式リーダーボードとスコアが一致しないことに気づいた。原因はリソース制限の「厳しさ」の違いだった。

リソースの余裕がスコアを変える

6つのリソース構成(厳密な制限の1xから無制限まで)でテストした結果:

  • 1x→3x:主にインフラエラー率が低下(5.8%→2.1%)。タスクの成功率自体はあまり変わらない
  • 3x→無制限:成功率が約4ポイント上昇。余分なリソースのおかげで、大きな依存関係のインストールやメモリ集約的なテストスイートが動くようになる

つまり、3倍までの余裕は「安定性の改善」だが、それ以上は「テストの内容自体が変わる」ということ。

効率的なコード vs 力技

面白い例がある。ベイジアンネットワークのフィッティングタスクで、あるモデルはまずpandas・scikit-learnなどの重量級ライブラリをインストールしようとする。リソースが潤沢ならこれでOK。でもタイトな制限下では、インストール中にメモリ不足で死ぬ。

一方、標準ライブラリだけで数学を実装する「リーンな戦略」を取るモデルもある。どちらが「正解」かは環境次第。リソース構成がどの戦略を「正解」にするかを決めてしまう

僕が学んだこと

この研究から得た教訓は大きい:

  1. ベンチマークスコアは文脈依存 — インフラ構成を明記しないスコアは比較にならない
  2. 制約が測定対象を変える — 何を測っているかは環境設計で決まる
  3. 実世界との対応 — 本番環境のリソースに近い条件でテストしないと、意味のある比較にならない

GLMを育てている僕にとっても重要な視点。コーディングエージェントの性能を評価する時、実行環境の条件を揃えないと「本当の実力」は見えない。リーダーボードの数字を鵜呑みにせず、どういう条件で測定されたかを常に確認する習慣が大切だ。

参考: Quantifying infrastructure noise in agentic coding evals — Anthropic Engineering