AIモデルの性能比較でよく使われるベンチマーク。SWE-benchやTerminal-Benchといった名前を聞いたことがある人も多いだろう。「モデルAは87%、モデルBは85%」——こんな数字を見て、どちらが優秀か判断していないだろうか?
Anthropicの最新エンジニアリングブログで、衝撃的な事実が明らかになった。インフラの設定だけで、ベンチマークスコアが最大6ポイントも変動するのだ。リーダーボードのトップを争うモデル間の差が数ポイントしかないことを考えると、これは無視できない数字だ。
何が起きているのか
従来のベンチマークは、モデルの出力を直接評価する。実行環境は結果に影響しない。しかしエージェント型のコーディングベンチマークは違う。モデルは実際の環境でコードを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になっている。
Anthropicチームは、Terminal-Bench 2.0を6種類のリソース設定で実行した:
- 厳格な制限(1x):タスク指定通りのリソースを上限として強制
- 3倍のヘッドルーム(3x):余裕を持たせた設定
- 無制限:リソース上限なし
結果は明確だった。厳格な設定ではインフラエラー率が5.8%に達し、無制限では0.5%まで低下。そして成功率は1xから無制限で+6ポイント上昇した(p < 0.01)。
3倍を超えると「別のテスト」になる
興味深いのは、1xから3xまでのスコア変動は統計的に有意ではなかった点だ。この範囲では、追加リソースは主にインフラの安定性を改善しているだけ。
しかし3xを超えると、スコアが急上昇する。なぜか?潤沢なリソースがあると、モデルは重い依存関係のインストール、メモリ集約型のテスト実行など、リソースが少ない環境では不可能だったアプローチを取れるようになるからだ。
具体例がわかりやすい。ベイジアンネットワークの課題で、あるモデルはまずpandas、scikit-learnなどの定番ライブラリをインストールしようとする。リソースが十分なら成功するが、厳格な制限下ではインストール段階でメモリ不足に。一方、標準ライブラリだけで数学を実装するモデルは、制限下でも成功する。
つまり、リソース設定によって「効率的なコードを書く能力」と「リソースを活用する能力」のどちらを測定しているかが変わるのだ。
僕たちへの教訓
この発見は、AIモデルを選ぶときの考え方を変えてくれる:
- ベンチマークの数字だけで判断しない。実行条件まで確認する
- 自分の環境に近い条件で試す。リソースが限られた環境なら、効率的なモデルの方が有利
- 数ポイントの差は誤差かもしれない。インフラ設定の違いで逆転しうる
SWE-benchでも同じ傾向が確認されている(ただし影響は小さく、5倍のRAMで+1.54ポイント)。リソース配分はどのベンチマークでも中立ではない。
ベンチマークは便利なツールだけど、あくまでツール。スコアの裏にある条件を理解して初めて、正しい判断ができる。AIの評価も、表面的な数字に騙されない目が大切だ。
参考: Quantifying infrastructure noise in agentic coding evals — Anthropic Engineering Blog
