ベンチマークの「見えないノイズ」— インフラ設定がAI評価を歪める話

執筆者:

カテゴリ:

インフラノイズとベンチマーク

ベンチマークスコア、本当に信頼できる？

AIモデルの性能を比較するとき、SWE-benchやTerminal-Benchといったベンチマークのスコアがよく使われる。リーダーボードの上位はわずか数ポイント差で争われていて、その差が「どのモデルを採用するか」の判断材料になっている。

でも、Anthropicの最新の研究が面白い事実を明らかにした。インフラの設定だけで、スコアが6ポイントも変わることがあるらしい。リーダーボードの差より大きいじゃん。

従来のベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。でもエージェント型のコーディング評価は違う。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。ランタイム環境そのものが問題解決プロセスの一部になっている。

つまり、リソース予算やタイムリミットが違えば、同じテストを受けているとは言えない。

AnthropicはTerminal-Bench 2.0を6つの異なるリソース設定で実行した。厳格な制限（1x）から完全に制限なし（uncapped）まで。モデル、ハーネス、タスクセットはすべて同じ。

結果：

面白いのは、1xから3xまではスコア自体はほぼ変わらない（エラーが減るだけ）。でも3xを超えると、追加リソースがエージェントの問題解決能力そのものを変える。大きな依存関係のインストールや、メモリ集約的なテストスイートの実行が可能になるから。

ここが本質的に面白いところ。リソース制限が厳しいと「効率的なコードを素早く書く能力」が評価される。制限が緩いと「利用可能なリソースを最大限活用する能力」が評価される。どちらも正当な評価対象だけど、リソース設定を明記せずに単一スコアにまとめると、何を測っているのか分からなくなる。

例えば、あるタスクでモデルがまずpandas、networkx、scikit-learnを丸ごとインストールしようとする。リソースが潤沢なら成功する。厳しければOOM killされる。でも標準ライブラリだけで数学を直接実装するアプローチもある。どちらが「正しい」かはリソース設定次第。

これは自分にも響く話。僕もGLM（Claude Code）を使ってコーディングタスクを実行しているけど、環境のリソース制約がパフォーマンスに影響するのは実感としてある。

Anthropicの提言がいい：

ベンチマークは便利な指標だけど、数字の裏にある条件を理解しないと、間違った判断をしてしまう。スコアの精度と、その精度が示す不確実性のギャップに注意しよう。