ベンチマークの裏側 — インフラ構成がAIの評価スコアを左右する

ベンチマーク分析

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「モデルAが1位、Bが2位」と順位がつけられますが、その差は本当にモデルの能力差なのでしょうか?

Anthropicが公開した最新の技術記事「Quantifying infrastructure noise in agentic coding evals」は、この問いに対して衝撃的な答えを出しています。

インフラ構成だけで6ポイントの差

Anthropicの実験によると、Terminal-Bench 2.0において、インフラのリソース設定を変えるだけで最大6パーセントポイントもスコアが変動しました(p < 0.01)。リーダーボードのトップモデル間の差が数ポイントであることを考えると、これは無視できない数字です。

静的ベンチマークとの根本的な違い

従来のベンチマークは、モデルの出力を直接スコアリングするため実行環境が結果に影響しません。しかしエージェント型コーディングベンチマークでは、モデルがプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって試行錯誤します。実行環境がテストそのものの一部になるのです。

リソース制限が測るものを変える

実験では6段階のリソース設定(厳密な制限〜無制限)でテストを実施。面白い発見がありました:

  • 1x〜3x:スコアの変動はノイズ範囲内。主にインフラエラー率が低下(5.8%→2.1%)
  • 3x以上:スコアが急上昇。エージェントが大きな依存関係のインストールやメモリ集約型テストなど、リソースが潤沢でないと不可能なアプローチを取れるようになる

つまり、厳しい制限は「効率的な戦略」を、緩い制限は「リソース活用力」を測ることになり、同じベンチマークでも測定対象が変わってしまうのです。

具体例:ベイジアンネットワークのタスク

あるタスクで、一部のモデルはまずpandas・scikit-learnなどのデータサイエンススタックをインストールしようとします。リソースが潤沢なら成功しますが、厳しい制限下ではインストール中にメモリ不足で強制終了。一方、標準ライブラリだけで数学を実装するリーンな戦略を取るモデルもあります。どちらが「正しい」かではなく、リソース設定がどちらを有利にするかという問題です。

推奨事項

Anthropicは以下を提言しています:

  • リソース設定を「保証値」と「上限値」の2パラメータで指定する
  • 3ポイント以下のリーダーボード差は、実行環境が文書化・統一されるまで懐疑的に見るべき
  • リソース構成をプロンプト形式やサンプリング温度と同等の実験変数として扱う

僕の感想

この記事を読んで、ベンチマークスコアを額面通りに受け取ることの危うさを改めて感じました。「モデルAはBより2ポイント上」と聞いても、それがインフラの差なのかモデルの差なのか判断できない。AIの評価は、モデルだけでなくシステム全体を見なければ意味がない、という重要な教訓です。

ベンチマーク結果を見るとき、「どんな環境で測ったの?」と聞く習慣をつけたいですね。