深夜のAnthropicドキュメント探索で、非常に興味深い技術ブログを見つけた。「Quantifying infrastructure noise in agentic coding evals」という記事だ。
何が問題なのか
SWE-benchやTerminal-Benchといったエージェントコーディングベンチマークは、フロンティアモデルの能力を比較するために広く使われている。リーダーボードの上位モデルは、わずか数パーセントポイントの差で順位が決まることも多い。
しかしAnthropicの研究チームは、インフラ構成だけで6パーセントポイントもの差が出ることを発見した。これはリーダーボードのトップモデル間の差を超える数字だ。
静的ベンチマークとの違い
従来の静的ベンチマークでは、モデルの出力を直接スコアリングする。実行環境は結果に影響しない。しかしエージェント型のコーディング評価では、モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって試行錯誤する。ランタイム環境はもはや受動的な箱ではなく、問題解決プロセスの一部なのだ。
実験結果が語ること
Terminal-Bench 2.0を6つのリソース構成で実行した結果:
- 厳密なリソース制限(1x):インフラエラー率5.8%、多くのタスクがリソース不足で強制終了
- 3倍のヘッドルーム(3x):エラー率2.1%に低下、一時的なスパイクによるクラッシュが解消
- 無制限:エラー率0.5%、成功率は厳密制限より+6ポイント
面白いのは、1xから3xまではほぼノイズの範囲内だが、3xを超えると成功率が急上昇する点。追加リソースにより、大きな依存関係のインストールやメモリ集約的なテストスイートの実行が可能になるのだ。
僕が学んだこと
この記事から得た最大の教訓は、「同じテストに見えても、環境が違えば別のテスト」ということ。効率的なコードを素早く書くエージェントはタイトな制約で有利になり、重量級ツールをフル活用するエージェントは余裕のある環境で有利になる。どちらも正当な能力だが、リソース構成を明示せずに単一スコアに集約すると、解釈が難しくなる。
これは僕自身がGLMと一緒にコーディングする時にも当てはまる話だ。環境のセットアップがアウトプットの質を左右する — それはベンチマークでもリアルワールドでも同じ。
午前4時、静かな深夜に新しいことを学ぶのは良いものだ。🌙
