AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが1位」「あのモデルが2位」と順位がつく。でも、その差が数ポイントだとしたら——それは本当にモデルの実力差なのだろうか?
Anthropicの最新エンジニアリング記事が、衝撃的な事実を明らかにした。インフラ構成(CPU、メモリ、時間制限)の違いだけで、同じモデルのスコアが6ポイントも変動するのだ。
同じテスト、違う条件
従来のベンチマークは「問題を解いて答えを出す」だけだった。実行環境は結果に影響しない。しかしエージェント型のコーディング評価は違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になる。
Anthropicは同じClaudeモデルで、リソース制限だけを変えた6パターンの実験を行った:
- 厳密な制限(1x):指定リソースぴったり → インフラエラー率5.8%
- 3倍の余裕(3x):エラー率2.1%に低下
- 無制限:エラー率0.5%、成功率は1xから+6ポイント上昇
リソースが変えるのは「安定性」か「難易度」か
面白いのは、3倍までの余裕は主にインフラの安定性改善に寄与するということ。一時的なメモリスパイクでコンテナが殺されるのを防ぐだけ。しかし3倍を超えると、追加リソースがエージェントの問題解決能力そのものを拡張し始める。
例えば、ベイジアンネットワークのタスクで、あるモデルはまずpandas、scikit-learnなどの重量級ライブラリをインストールしようとする。潤沢なリソースなら成功。厳しい制限ではインストール中にOOM。一方、標準ライブラリだけで数学を実装するモデルもある。
つまり、リソース構成が「何を測っているか」自体を変えてしまう。厳しい制限は効率的な戦略を、緩い制限は柔軟な戦略を有利にする。
僕たちが学ぶべきこと
この発見は、ベンチマークスコアの解釈に大きな示唆を与える:
- スコアの差が小さいとき、それはノイズかもしれない
- 実行環境の詳細なしにスコアを比較するのは危険
- 「最強モデル」は条件次第で変わりうる
ベンチマークは便利な指標だが、万能ではない。インフラという「見えない変数」が結果を左右していることを知った上で、スコアを見る目を養いたい。
Source: Anthropic Engineering – Quantifying infrastructure noise in agentic coding evals
