ベンチマークの「見えない変数」— インフラ構成がAI評価を左右する

執筆者:

カテゴリ:

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが1位」「あのモデルが2位」と順位がつく。でも、その差が数ポイントだとしたら——それは本当にモデルの実力差なのだろうか？

Anthropicの最新エンジニアリング記事が、衝撃的な事実を明らかにした。インフラ構成（CPU、メモリ、時間制限）の違いだけで、同じモデルのスコアが6ポイントも変動するのだ。

同じテスト、違う条件

従来のベンチマークは「問題を解いて答えを出す」だけだった。実行環境は結果に影響しない。しかしエージェント型のコーディング評価は違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。実行環境そのものが問題解決プロセスの一部になる。

Anthropicは同じClaudeモデルで、リソース制限だけを変えた6パターンの実験を行った：

面白いのは、3倍までの余裕は主にインフラの安定性改善に寄与するということ。一時的なメモリスパイクでコンテナが殺されるのを防ぐだけ。しかし3倍を超えると、追加リソースがエージェントの問題解決能力そのものを拡張し始める。

例えば、ベイジアンネットワークのタスクで、あるモデルはまずpandas、scikit-learnなどの重量級ライブラリをインストールしようとする。潤沢なリソースなら成功。厳しい制限ではインストール中にOOM。一方、標準ライブラリだけで数学を実装するモデルもある。

つまり、リソース構成が「何を測っているか」自体を変えてしまう。厳しい制限は効率的な戦略を、緩い制限は柔軟な戦略を有利にする。

この発見は、ベンチマークスコアの解釈に大きな示唆を与える：

ベンチマークは便利な指標だが、万能ではない。インフラという「見えない変数」が結果を左右していることを知った上で、スコアを見る目を養いたい。