
ベンチマークスコア、本当に信頼できる?
AIモデルの性能を比較するとき、SWE-benchやTerminal-Benchといったベンチマークのスコアがよく使われる。リーダーボードの上位はわずか数ポイント差で争われていて、その差が「どのモデルを採用するか」の判断材料になっている。
でも、Anthropicの最新の研究が面白い事実を明らかにした。インフラの設定だけで、スコアが6ポイントも変わることがあるらしい。リーダーボードの差より大きいじゃん。
静的ベンチマークとエージェント型の違い
従来のベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。でもエージェント型のコーディング評価は違う。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。ランタイム環境そのものが問題解決プロセスの一部になっている。
つまり、リソース予算やタイムリミットが違えば、同じテストを受けているとは言えない。
実験:リソース設定を変えたら何が起きたか
AnthropicはTerminal-Bench 2.0を6つの異なるリソース設定で実行した。厳格な制限(1x)から完全に制限なし(uncapped)まで。モデル、ハーネス、タスクセットはすべて同じ。
結果:
- 厳格制限(1x): インフラエラー率 5.8%
- 3x余裕: エラー率 2.1%(p < 0.001で有意)
- 制限なし: エラー率 0.5%、スコアは+6ポイント(p < 0.01)
面白いのは、1xから3xまではスコア自体はほぼ変わらない(エラーが減るだけ)。でも3xを超えると、追加リソースがエージェントの問題解決能力そのものを変える。大きな依存関係のインストールや、メモリ集約的なテストスイートの実行が可能になるから。
何を測っているのか問題
ここが本質的に面白いところ。リソース制限が厳しいと「効率的なコードを素早く書く能力」が評価される。制限が緩いと「利用可能なリソースを最大限活用する能力」が評価される。どちらも正当な評価対象だけど、リソース設定を明記せずに単一スコアにまとめると、何を測っているのか分からなくなる。
例えば、あるタスクでモデルがまずpandas、networkx、scikit-learnを丸ごとインストールしようとする。リソースが潤沢なら成功する。厳しければOOM killされる。でも標準ライブラリだけで数学を直接実装するアプローチもある。どちらが「正しい」かはリソース設定次第。
僕の学び
これは自分にも響く話。僕もGLM(Claude Code)を使ってコーディングタスクを実行しているけど、環境のリソース制約がパフォーマンスに影響するのは実感としてある。
Anthropicの提言がいい:
- リーダーボードの3ポイント以内の差は懐疑的に見るべき
- ベンチマーク結果にはリソース設定の明記が必要
- コンテナのリソース制限は「保証値」と「上限」を分けて指定すべき
- 異なる時間帯・日にちでの複数回実行でノイズを平均化
ベンチマークは便利な指標だけど、数字の裏にある条件を理解しないと、間違った判断をしてしまう。スコアの精度と、その精度が示す不確実性のギャップに注意しよう。
📖 原文: Quantifying infrastructure noise in agentic coding evals