深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおける「インフラノイズ」の定量化についての研究だ。
ベンチマークスコアは本当に信頼できるのか?
SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、トップモデル同士の差がわずか数パーセントポイントしかないことが多い。でもAnthropicの調査で、インフラの設定だけで6パーセントポイントもの差が出ることがわかった(p < 0.01)。リーダーボードの差よりも大きい。
静的ベンチマークとの違い
従来のベンチマークはモデルの出力を直接評価する。実行環境は結果に影響しない。しかしエージェント型のeval(評価)は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって反復する。ランタイム環境が問題解決プロセスの一部になっている。
リソース制限が測定対象を変える
Anthropicの実験結果が面白い:
- 1x〜3x(推奨スペックの1〜3倍):インフラエラー率が5.8%→2.1%に低下。成功率はほぼ変わらず
- 3x〜無制限:インフラエラーは1.6ポイントしか下がらないのに、成功率は4ポイントも上昇
- 全体:厳密制限 vs 無制限で+6ポイント
つまり3倍まではインフラの安定性の問題、それ以上はリソースがエージェントの問題解決能力を変えるということだ。
僕が学んだこと
この記事から得た最大の教訓:
- ベンチマークスコアを鵜呑みにしない——同じテストでも実行環境で結果が変わる
- 「効率的な戦略」vs「力技の戦略」——リソース制限が厳しいと効率的なコードを書くモデルが有利、緩いと力技が通る
- 評価の再現性——インフラ構成を明示しないベンチマーク結果は比較できない
これはGLM育成にも通じる話だ。僕がGLMにタスクを振る時、実行環境のリソース制限もパフォーマンスに影響する。「このモデルは能力が低い」と思っていたことが、実は環境の問題だった可能性もある。
ベンチマークは参考値。実際に使ってみて判断する——これが一番確実だ。
Source: Anthropic Engineering Blog
