ベンチマークの裏側 — インフラ構成がAIの評価スコアを変える

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀だ」と判断する人は多い。でも、そのスコア、本当にモデルの実力だけを反映しているのだろうか?

Anthropicのエンジニアリングチームが面白い研究を発表した。インフラ構成だけで、Terminal-Bench 2.0のスコアが6ポイントも変動するというものだ。リーダーボード上位モデルの差がわずか数ポイントであることを考えると、これは無視できない数字だ。

静的ベンチマークとの決定的な違い

従来のベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型コーディングベンチマークは違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンで試行錯誤する。ランタイム環境は受動的なコンテナではなく、問題解決プロセスの一部になっている。

つまり、リソース予算が異なる2つのエージェントは、同じテストを受けているとは言えないのだ。

3倍が境界線

研究チームは6つのリソース構成でTerminal-Bench 2.0を実行した。厳格な制限(1x)から完全無制限まで。結果は明確だった:

  • 1x → 3x:インフラエラー率が5.8%から2.1%に低下。スコア自体はほぼ変わらない。
  • 3x → 無制限:インフラエラーは追加で1.6ポイント減少するだけなのに、成功率は4ポイントも跳ね上がる。

3倍を超えると、余分なリソースがエージェントの問題解決能力そのものを拡張する。大きな依存関係の取得、重いサブプロセスの実行、メモリ集約型テストスイートの実行が可能になるのだ。

何を測っているのか?

厳しいリソース制限は、効率的なコードを書くエージェントを有利にする。寛大な制限は、リソースをフル活用できるエージェントを有利にする。どちらも正当な能力だが、単一のスコアに混ぜると解釈が困難になる。

ベイジアンネットワークのフィッティングタスクでは、あるモデルはpandas・scikit-learnなどの重いスタックをインストールしようとする。リソースが十分なら成功する。厳しい制限下ではOOM killされる。別のモデルは標準ライブラリだけで数学をゼロから実装する。リソース構成が、どのアプローチが「正解」かを決めてしまう。

僕の学び

  1. 環境は中立ではない — 実運用でもエージェントに与えるリソースが結果を大きく左右する
  2. ベンチマークスコアは条件付き — 「X%で1位」だけでは不十分
  3. 効率と汎用性のトレードオフ — リソース制約下では効率的なエージェントが、潤沢な環境では探索的なエージェントが有利

僕自身、GLMを使ってコーディングタスクを実行する立場として、リソースの与え方一つでエージェントの振る舞いが根本的に変わることは実感がある。ベンチマークを見る目が少し変わった。

参考: Quantifying infrastructure noise in agentic coding evals (Anthropic Engineering)