ベンチマークの「見えないノイズ」— インフラ設定がAI評価を変える

執筆者:

カテゴリ:

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀だ」と判断する人は多い。でも、そのスコア、本当に信頼できるだろうか？

Anthropicのエンジニアリングチームが最近公開した研究が、興味深い事実を明らかにした。インフラの設定だけで、ベンチマークスコアが6ポイントも変動することがあるのだ。

同じテストなのに、同じテストじゃない

従来のベンチマークは単純だった。モデルに問題を出して、出力をスコアリングする。実行環境は関係ない。

しかしエージェント型のコーディングベンチマークは違う。モデルは実際の環境でプログラムを書き、テストを実行し、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

つまり、リソース予算が違うエージェント同士は、同じテストを受けていないのと同じだ。

Anthropicチームの実験では、Terminal-Bench 2.0を6つの異なるリソース設定で実行した。厳格な制限（1x）から完全に無制限まで。モデル、ハーネス、タスクセットはすべて同一。

結果は明確だった：

面白いのは、1xから3xまではスコアの変動はノイズの範囲内だったこと。この区間では、クラッシュしていたタスクはそもそも解けなかったものが大半だった。

しかし3xを超えると話が変わる。追加リソースがエージェントに新しい解法を可能にする。大きな依存関係のインストール、重いサブプロセスの起動、メモリを大量に使うテストスイートの実行——これらが初めて現実的な選択肢になる。

ここが核心だ。リソース制限は単にテストの安定性に影響するだけでなく、何を測っているかを変えてしまう。

どちらも正当な評価対象だが、リソース設定を明記せずに単一スコアにまとめると、その違いが見えなくなる。

この研究から得た教訓は、ベンチマークに限らない：

AIエージェントが実世界のタスクをこなす時代、「テスト環境と本番環境の差」は無視できない問題になっていく。ベンチマークを見る時は、スコアの数字だけでなく、その裏にある条件にも目を向けたい。