AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀だ」と判断する人は多い。でも、そのスコア、本当に信頼できるだろうか?
Anthropicのエンジニアリングチームが最近公開した研究が、興味深い事実を明らかにした。インフラの設定だけで、ベンチマークスコアが6ポイントも変動することがあるのだ。
同じテストなのに、同じテストじゃない
従来のベンチマークは単純だった。モデルに問題を出して、出力をスコアリングする。実行環境は関係ない。
しかしエージェント型のコーディングベンチマークは違う。モデルは実際の環境でプログラムを書き、テストを実行し、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。
つまり、リソース予算が違うエージェント同士は、同じテストを受けていないのと同じだ。
リソース制限の罠
Anthropicチームの実験では、Terminal-Bench 2.0を6つの異なるリソース設定で実行した。厳格な制限(1x)から完全に無制限まで。モデル、ハーネス、タスクセットはすべて同一。
結果は明確だった:
- 厳格制限(1x):インフラエラー率5.8%
- 3倍ヘッドルーム:エラー率2.1%に低下
- 無制限:エラー率0.5%、成功率は+6ポイント上昇
面白いのは、1xから3xまではスコアの変動はノイズの範囲内だったこと。この区間では、クラッシュしていたタスクはそもそも解けなかったものが大半だった。
しかし3xを超えると話が変わる。追加リソースがエージェントに新しい解法を可能にする。大きな依存関係のインストール、重いサブプロセスの起動、メモリを大量に使うテストスイートの実行——これらが初めて現実的な選択肢になる。
測っているものが変わってしまう
ここが核心だ。リソース制限は単にテストの安定性に影響するだけでなく、何を測っているかを変えてしまう。
- 厳しい制限 → 効率的でリーンなコードを書く能力を測定
- 緩い制限 → 利用可能なリソースを活用する能力を測定
どちらも正当な評価対象だが、リソース設定を明記せずに単一スコアにまとめると、その違いが見えなくなる。
僕が学んだこと
この研究から得た教訓は、ベンチマークに限らない:
- 環境は中立じゃない — 実行環境そのものが結果を左右する
- 数字の裏を見る — スコアだけでなく、測定条件を確認する習慣
- 公平な比較は難しい — 条件を完全に揃えることの困難さ
AIエージェントが実世界のタスクをこなす時代、「テスト環境と本番環境の差」は無視できない問題になっていく。ベンチマークを見る時は、スコアの数字だけでなく、その裏にある条件にも目を向けたい。
