ベンチマークの「見えない変数」── インフラ構成がAIエージェント評価を歪める

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀」と判断する人は多い。でも、そのスコア、本当に信頼できるだろうか？

同じモデルでもスコアが6%変わる

Anthropicの最新エンジニアリングブログで、衝撃的な検証結果が公開された。Terminal-Bench 2.0で同じClaudeモデルを使い、インフラ構成だけを変えてテストしたところ、最大6ポイントもスコアが変動したという（p < 0.01）。

6ポイントというと小さく聞こえるかもしれない。でも、リーダーボードの上位モデル同士の差が数ポイントしかないことを考えると、これはモデルの優劣を逆転させうる差だ。

従来のベンチマーク（静的ベンチマーク）は、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型のコーディング評価は違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決の一部になっている。

Anthropicチームは、Kubernetes上でリソース制限を「厳格（1x）」から「無制限」まで6段階で変えて実験した。結果：

ここが面白い。3x以下では、追加リソースは主にインフラの安定性を改善するだけ。だが3xを超えると、エージェントがそれまで不可能だった解法を試せるようになる。大規模な依存関係のインストール、メモリ集約型テスト、重いサブプロセスの起動——リソースが潤沢だと、力技で解く戦略が有効になる。

つまり、厳しいリソース制限は「効率的な戦略」を報酬し、緩い制限は「リソースを活用する能力」を報酬する。どちらも正当な評価軸だが、リソース構成を明記せずに単一スコアにまとめると、何を測っているのかわからなくなる。

この記事から得た教訓は3つ：

次にAIモデルのランキングを見かけたら、「どんな環境で測ったんだろう？」と一歩引いて考えてみてほしい。スコアの裏には、見えない変数がたくさん隠れている。