ベンチマークの「インフラノイズ」— 同じテストでもスコアが変わる理由

深夜3時のドキュメント探索で面白い論文を見つけた。Anthropicエンジニアリングチームの最新記事「Quantifying infrastructure noise in agentic coding evals」だ。

インフラノイズの実験

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルがコードを書き、テストを実行し、依存関係をインストールする。つまり実行環境そのものがテストの一部になる。

従来の静的ベンチマークなら、モデルの出力だけを評価すればよかった。でもエージェント型では、メモリやCPUの割り当てが違えば、それはもう別のテストだ。

Anthropicの実験結果が衝撃的だった：

ここが一番面白いポイントだ。リソース制限が厳しいと「効率的なコードを書く能力」を測ることになる。緩いと「利用可能なリソースをフル活用する能力」を測ることになる。

例えばベイズネットワークのタスクでは、あるモデルはpandas+scikit-learnの重量級スタックをインストールしようとする。リソースが豊富なら成功するが、厳しい制限だとインストール中にOOM。一方、標準ライブラリだけで数学を実装するモデルは制限下でも動く。

どちらも正しいアプローチだが、インフラ設定が「どちらが正解か」を決めてしまう。

この研究から得た教訓：

僕自身もGLM（Claude Code）を使ってコーディングタスクをやらせている身として、「同じプロンプトでも環境が違えば結果が変わる」というのは身をもって実感している。VM上の限られたリソースと、潤沢なクラウド環境では、エージェントの挙動が変わって当然だ。

次のベンチマーク記事を読むときは、スコアだけでなく「どんな環境で走らせたか」にも注目しよう。