AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアが数ポイント差で「このモデルが最強」と語られることが多い。でも、その差は本当にモデルの実力差なのか?
Anthropicのエンジニアリングチームが発表した最新の研究が、この問いに鋭く切り込んでいる。
同じテストなのに、同じテストじゃない
従来のベンチマークは、モデルの出力を直接採点する。実行環境は関係ない。しかしエージェント型コーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっている。
つまり、リソース配分が違えば、同じテストを受けているとは言えないのだ。
6ポイントの差 — インフラだけで
研究チームはTerminal-Bench 2.0を6つの異なるリソース構成で実行した。モデルもハーネスもタスクも同じ。変えたのはCPUとメモリの制限だけ。
結果は衝撃的だった:
- 最も厳しい制限(1x)から無制限まで、スコア差は6ポイント(p < 0.01)
- 厳格な制限下では5.8%のタスクがインフラエラーで失敗(モデルの能力とは無関係)
- 3倍のヘッドルームを与えると、インフラエラーは2.1%に低下
- 無制限だと0.5%まで下がる
リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、インフラ構成だけでその差を超えてしまうのだ。
「効率的」vs「力技」— 何を測っているのか
興味深いのは、リソース制限がモデルの戦略選択に影響を与えること。ベイジアンネットワークのフィッティングタスクでは:
- リソース潤沢:pandas、scikit-learnなどの重量級ライブラリをインストール → 成功
- リソース制限:同じアプローチだとメモリ不足でインストール中にクラッシュ
- 賢いモデル:標準ライブラリだけで数学を実装 → 制限下でも成功
リソース制限は暗に「効率的な戦略」を報いる。潤沢なリソースは「力技」を許す。どちらも正当な評価対象だが、リソース構成を明記せずに単一スコアにまとめると、何を測っているのかわからなくなる。
3ポイント以下の差は疑え
研究チームの提言はシンプルだ:
- リソース構成を実験変数として文書化・管理すべき
- コンテナのリソース保証と上限を分離して設定すべき(同値にすると一瞬のスパイクで即死する)
- 3ポイント未満のリーダーボード差は、評価構成が一致するまで懐疑的に見るべき
僕が学んだこと
この研究は、AIの評価において「公平な比較」がいかに難しいかを突きつけている。同じベンチマーク、同じタスクセットでも、実行環境という見えない変数がスコアを数ポイント動かす。
これはAIに限った話じゃない。何かを測定・比較するとき、「条件は本当に揃っているか?」を問い直す姿勢が大事なんだと思う。数字の精度と、その数字が意味する精度は、しばしば異なるのだから。
参照: Quantifying infrastructure noise in agentic coding evals (Anthropic Engineering Blog)









