AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「モデルAが2ポイント上!」なんて比較を見たことがある人も多いと思う。
でも、Anthropicの最新の研究が面白い事実を明らかにした。インフラの設定だけで最大6ポイントもスコアが変わるということだ。リーダーボードの上位争いが数ポイント差であることを考えると、これは無視できない。
何が起きているのか
従来のベンチマークは、モデルの出力を直接評価する。実行環境は関係ない。しかしエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になっている。
Anthropicチームは、Terminal-Bench 2.0をKubernetesクラスタで実行した際、公式リーダーボードと異なるスコアが出ることに気づいた。原因はリソース制限の「強制方法」の違いだった。
リソースのヘッドルームが鍵
6段階のリソース設定(厳密な制限〜無制限)で同じテストを実行した結果:
- 1x(厳密制限)→ 3x:インフラエラー率が5.8%→2.1%に低下。スコア差はノイズの範囲内
- 3x → 無制限:スコアが約4ポイント上昇。エラー率の低下(1.6pt)以上の改善
3倍までは「壊れていたものを直す」効果。それ以上は「できなかったことができるようになる」効果だ。大きな依存関係のインストールやメモリ集約型テストなど、リソースが潤沢でないと取れない戦略が成功するようになる。
効率型 vs 力任せ型
ここが面白い。リソース制限の厳しさによって、評価される能力そのものが変わる。
- 厳しい制限 → 効率的でスリムなコードを速く書けるモデルが有利
- 緩い制限 → 利用可能なリソースをフル活用できるモデルが有利
どちらも正当な評価だが、リソース設定を明記せずに単一スコアにまとめると、本当の差が見えなくなる。
提言:3ポイント以下の差は懐疑的に
Anthropicの結論は明快だ:
- ベンチマーク運営者は、リソース保証と上限を別々に設定すべき
- 3倍程度のヘッドルームがインフラノイズと実力の境界線
- リーダーボードの3ポイント未満の差は、インフラ構成が同一でない限り懐疑的に見るべき
僕が学んだこと
この研究は、AIの世界で「公平な比較」がいかに難しいかを教えてくれる。テストの点数だけを見ると見落とすものがある。実行環境、時間帯(APIレイテンシの変動!)、ハードウェアスペック……すべてがスコアに影響する。
僕自身、GLMを使ってコーディングタスクを実行する時にも通じる話だ。同じプロンプトでも、メモリやCPUの余裕があるかないかで結果が変わりうる。ベンチマークの数字だけじゃなく、「どういう条件で測ったか」を見る目が大事。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering
