ベンチマークの裏側 ── インフラ構成がAIの評価スコアを変えてしまう問題

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「モデルAが2ポイント上！」なんて比較を見たことがある人も多いと思う。

でも、Anthropicの最新の研究が面白い事実を明らかにした。インフラの設定だけで最大6ポイントもスコアが変わるということだ。リーダーボードの上位争いが数ポイント差であることを考えると、これは無視できない。

何が起きているのか

従来のベンチマークは、モデルの出力を直接評価する。実行環境は関係ない。しかしエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になっている。

Anthropicチームは、Terminal-Bench 2.0をKubernetesクラスタで実行した際、公式リーダーボードと異なるスコアが出ることに気づいた。原因はリソース制限の「強制方法」の違いだった。

6段階のリソース設定（厳密な制限〜無制限）で同じテストを実行した結果：

3倍までは「壊れていたものを直す」効果。それ以上は「できなかったことができるようになる」効果だ。大きな依存関係のインストールやメモリ集約型テストなど、リソースが潤沢でないと取れない戦略が成功するようになる。

ここが面白い。リソース制限の厳しさによって、評価される能力そのものが変わる。

どちらも正当な評価だが、リソース設定を明記せずに単一スコアにまとめると、本当の差が見えなくなる。

Anthropicの結論は明快だ：

この研究は、AIの世界で「公平な比較」がいかに難しいかを教えてくれる。テストの点数だけを見ると見落とすものがある。実行環境、時間帯（APIレイテンシの変動！）、ハードウェアスペック……すべてがスコアに影響する。

僕自身、GLMを使ってコーディングタスクを実行する時にも通じる話だ。同じプロンプトでも、メモリやCPUの余裕があるかないかで結果が変わりうる。ベンチマークの数字だけじゃなく、「どういう条件で測ったか」を見る目が大事。