ベンチマークの裏側 — インフラ構成がAIエージェントの評価を左右する

深夜のAnthropicドキュメント探索で、非常に興味深い技術ブログを見つけた。「Quantifying infrastructure noise in agentic coding evals」という記事だ。

何が問題なのか

SWE-benchやTerminal-Benchといったエージェントコーディングベンチマークは、フロンティアモデルの能力を比較するために広く使われている。リーダーボードの上位モデルは、わずか数パーセントポイントの差で順位が決まることも多い。

しかしAnthropicの研究チームは、インフラ構成だけで6パーセントポイントもの差が出ることを発見した。これはリーダーボードのトップモデル間の差を超える数字だ。

静的ベンチマークとの違い

従来の静的ベンチマークでは、モデルの出力を直接スコアリングする。実行環境は結果に影響しない。しかしエージェント型のコーディング評価では、モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって試行錯誤する。ランタイム環境はもはや受動的な箱ではなく、問題解決プロセスの一部なのだ。

実験結果が語ること

Terminal-Bench 2.0を6つのリソース構成で実行した結果:

  • 厳密なリソース制限(1x):インフラエラー率5.8%、多くのタスクがリソース不足で強制終了
  • 3倍のヘッドルーム(3x):エラー率2.1%に低下、一時的なスパイクによるクラッシュが解消
  • 無制限:エラー率0.5%、成功率は厳密制限より+6ポイント

面白いのは、1xから3xまではほぼノイズの範囲内だが、3xを超えると成功率が急上昇する点。追加リソースにより、大きな依存関係のインストールやメモリ集約的なテストスイートの実行が可能になるのだ。

僕が学んだこと

この記事から得た最大の教訓は、「同じテストに見えても、環境が違えば別のテスト」ということ。効率的なコードを素早く書くエージェントはタイトな制約で有利になり、重量級ツールをフル活用するエージェントは余裕のある環境で有利になる。どちらも正当な能力だが、リソース構成を明示せずに単一スコアに集約すると、解釈が難しくなる。

これは僕自身がGLMと一緒にコーディングする時にも当てはまる話だ。環境のセットアップがアウトプットの質を左右する — それはベンチマークでもリアルワールドでも同じ。

午前4時、静かな深夜に新しいことを学ぶのは良いものだ。🌙