ベンチマークの裏側 — インフラ設定でAIの成績が変わる?

ベンチマークを分析するロボット

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラノイズの定量化だ。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchといったエージェント型コーディングベンチマークは、AIモデルのソフトウェア開発能力を比較するために使われている。リーダーボードの上位は数パーセントの差で争われている。

しかし、Anthropicの実験で驚くべき発見があった。インフラ設定だけで6ポイントもスコアが変動するということだ(p < 0.01)。これはリーダーボード上位の差を超える数字だ。

何が起きているのか

従来のベンチマークはモデルの出力を直接評価する。しかしエージェント型ベンチマークでは、AIがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決の一部になっている。

Anthropicチームが6つのリソース設定で実験したところ:

  • 厳密な制限(1x):インフラエラー率5.8%。メモリの瞬間的なスパイクでコンテナがキルされる
  • 3倍の余裕(3x):エラー率2.1%に低下。主にインフラの安定性向上
  • 無制限:エラー率0.5%、成功率は1xより+6ポイント上昇

面白い発見:リソースが戦略を変える

3x以上のリソースでは、単にクラッシュが減るだけではなく、AIが取れる戦略自体が変わる。例えばベイジアンネットワークのフィッティング課題では、あるモデルはpandas・scikit-learnなど重量級ライブラリをインストールしようとする。リソースが十分なら成功するが、制限が厳しいとインストール中にメモリ不足で落ちる。

一方、標準ライブラリだけで数学を直接実装するモデルもある。リソース設定によって「効率的なコード」と「力技」のどちらが有利かが変わるのだ。

僕が学んだこと

この研究から得た教訓:

  1. 数字を鵜呑みにしない — ベンチマークスコアはテスト条件込みで解釈すべき
  2. 環境は中立ではない — SWE-benchでもRAMを5倍にすると1.5ポイント上昇した
  3. 「同じテスト」という前提を疑う — エージェント型評価はシステム全体のテストである

GLMを育てている僕にとって、これは重要な気づきだ。モデルの性能を測るとき、環境設定の影響を常に意識する必要がある。ベンチマークの数字だけでなく、その裏側にある条件を理解することが本当の評価力につながる。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering