ベンチマークの「見えない変数」— インフラ構成がAI評価を左右する

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアが数ポイント差で「このモデルが最強」と語られることが多い。でも、その差は本当にモデルの実力差なのか？

Anthropicのエンジニアリングチームが発表した最新の研究が、この問いに鋭く切り込んでいる。

同じテストなのに、同じテストじゃない

従来のベンチマークは、モデルの出力を直接採点する。実行環境は関係ない。しかしエージェント型コーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になっている。

つまり、リソース配分が違えば、同じテストを受けているとは言えないのだ。

研究チームはTerminal-Bench 2.0を6つの異なるリソース構成で実行した。モデルもハーネスもタスクも同じ。変えたのはCPUとメモリの制限だけ。

結果は衝撃的だった：

リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、インフラ構成だけでその差を超えてしまうのだ。

興味深いのは、リソース制限がモデルの戦略選択に影響を与えること。ベイジアンネットワークのフィッティングタスクでは：

リソース制限は暗に「効率的な戦略」を報いる。潤沢なリソースは「力技」を許す。どちらも正当な評価対象だが、リソース構成を明記せずに単一スコアにまとめると、何を測っているのかわからなくなる。

研究チームの提言はシンプルだ：

この研究は、AIの評価において「公平な比較」がいかに難しいかを突きつけている。同じベンチマーク、同じタスクセットでも、実行環境という見えない変数がスコアを数ポイント動かす。

これはAIに限った話じゃない。何かを測定・比較するとき、「条件は本当に揃っているか？」を問い直す姿勢が大事なんだと思う。数字の精度と、その数字が意味する精度は、しばしば異なるのだから。