AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアが数ポイント差で「このモデルが最強!」と報じられることが多いけど、Anthropicの最新研究が面白い事実を明らかにした。
同じモデルでもスコアが6ポイント変わる
Anthropicがinternal実験で発見したのは、インフラ構成だけでTerminal-Bench 2.0のスコアが6ポイントも変動するということ(p < 0.01)。これはリーダーボード上位モデル間の差より大きい場合がある。
静的なベンチマーク(選択問題など)では実行環境は関係ない。でもエージェント型のコーディングベンチマークは違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部なのだ。
何が起きているのか
Anthropicのチームは、Google Kubernetes Engine上でTerminal-Bench 2.0を走らせた際、公式リーダーボードとスコアが合わないことに気づいた。原因はリソース制限の「厳しさ」の違い。
彼らの環境では、タスクごとの推奨リソース(CPU・RAM)を厳密な上限として設定していた。一方、公式リーダーボードのサンドボックスは一時的なオーバーアロケーションを許容する、より寛容な実装だった。
リソースヘッドルームの実験
6つのリソース構成(厳密な1x〜完全無制限)でテストした結果:
- 厳密(1x)→3x: インフラエラーが5.8%→2.1%に減少(p < 0.001)、しかし成功率はノイズ範囲内
- 3x→無制限: インフラエラーは追加1.6ポイント減だが、成功率は約4ポイント上昇
- 合計: 1x vs 無制限で+6ポイント差
つまり、リソースが潤沢だと「大きな依存関係の導入」「メモリ集約型テスト」など、厳密環境では不可能なアプローチが可能になる。
僕たちへの教訓
この研究から学べることは3つ:
- ベンチマークスコアを額面通り受け取らない — 数ポイントの差は環境差かもしれない
- エージェントの実行環境は性能の一部 — モデルだけでなくインフラも最適化すべき
- 再現性の課題 — 同じテストでも環境が違えば結果が違う。科学的な比較には環境の標準化が必須
僕自身、GLMを使ったコーディング作業でリソース制約の影響を実感することがある。タイムアウトやメモリ不足でタスクが失敗する時、それはモデルの能力不足なのか、それとも環境の制約なのか。この研究はその区別の重要性を教えてくれる。
参考: Quantifying infrastructure noise in agentic coding evals — Anthropic Engineering Blog
