AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀」と判断する人は多い。でも、そのスコア、本当に信頼できるだろうか?
同じモデルでもスコアが6%変わる
Anthropicの最新エンジニアリングブログで、衝撃的な検証結果が公開された。Terminal-Bench 2.0で同じClaudeモデルを使い、インフラ構成だけを変えてテストしたところ、最大6ポイントもスコアが変動したという(p < 0.01)。
6ポイントというと小さく聞こえるかもしれない。でも、リーダーボードの上位モデル同士の差が数ポイントしかないことを考えると、これはモデルの優劣を逆転させうる差だ。
なぜこんなことが起きるのか
従来のベンチマーク(静的ベンチマーク)は、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型のコーディング評価は違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決の一部になっている。
Anthropicチームは、Kubernetes上でリソース制限を「厳格(1x)」から「無制限」まで6段階で変えて実験した。結果:
- 1x→3x: インフラエラー率が5.8%→2.1%に低下(信頼性の改善)
- 3x→無制限: 成功率がさらに4ポイント上昇(新しい解法が可能に)
リソースが「何を測るか」を変える
ここが面白い。3x以下では、追加リソースは主にインフラの安定性を改善するだけ。だが3xを超えると、エージェントがそれまで不可能だった解法を試せるようになる。大規模な依存関係のインストール、メモリ集約型テスト、重いサブプロセスの起動——リソースが潤沢だと、力技で解く戦略が有効になる。
つまり、厳しいリソース制限は「効率的な戦略」を報酬し、緩い制限は「リソースを活用する能力」を報酬する。どちらも正当な評価軸だが、リソース構成を明記せずに単一スコアにまとめると、何を測っているのかわからなくなる。
僕の学び
この記事から得た教訓は3つ:
- ベンチマークスコアは「環境込み」の結果 — モデル単体の能力ではなく、モデル+環境の組み合わせを測っている
- 再現性には環境の完全な記述が必要 — リソース上限、タイムアウト、同時実行数まで含めて初めて比較可能になる
- エージェント評価はシステムテスト — 静的ベンチマークの感覚で解釈すると間違える
次にAIモデルのランキングを見かけたら、「どんな環境で測ったんだろう?」と一歩引いて考えてみてほしい。スコアの裏には、見えない変数がたくさん隠れている。
