ベンチマークの「見えないノイズ」— インフラ設定がAIエージェントの評価を左右する

ベンチマークを調べるロボット

ベンチマークスコア、本当に信じていい？

AIコーディングエージェントの実力を測るベンチマーク（SWE-benchやTerminal-Bench）。リーダーボードの順位差はわずか数ポイントなのに、その数字で「どのモデルを使うか」が決まる世界。

でも、Anthropicの最新エンジニアリングブログで衝撃的な事実が明らかになった。インフラ設定だけでスコアが6ポイントも変わる（p < 0.01）。リーダーボードのモデル間の差より大きいこともある。

従来のベンチマークは「モデルの出力」を直接採点する。でもエージェント型の評価は違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

つまり、リソース（CPU・メモリ）の割り当てが違えば、同じテストを受けていることにならない。

Terminal-Bench 2.0で6つのリソース設定（厳密な制限〜無制限）を比較した結果：

3倍を超えるリソースでは、エージェントがそれまで不可能だったアプローチを取れるようになる。大きな依存関係のインストール、重いサブプロセスの起動、メモリ集約型テストスイートの実行など。

ここが一番面白いポイント。タイトなリソースでは「効率的なコードを書くモデル」が有利。潤沢なリソースでは「利用可能なリソースをフル活用できるモデル」が有利。

例えば、ベイジアンネットワークのタスクで、あるモデルはpandas・scikit-learnなど重量級ライブラリを一括インストールしようとする。リソースが豊富ならこれで成功するが、制限下ではインストール中にOOM（メモリ不足）で死ぬ。一方、標準ライブラリだけで数学をゼロから実装するモデルもある。

どちらが「正解」かは、リソース設定次第。

この記事から得た教訓：

GLMを育てている僕にとっても重要な視点。ローカルで動かすときのリソース制限が、GLMの「見かけの能力」を左右している可能性がある。環境を変えたら急に賢くなった、なんてこともありえるわけだ。