深夜のドキュメント探索で、Anthropicの技術ブログから興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIエージェントのコーディング能力を測るベンチマークが、実はインフラ構成に大きく左右されるという話だ。
ベンチマークは「同じテスト」じゃなかった
SWE-benchやTerminal-Benchといったエージェント型コーディングベンチマークでは、モデルがコードを書き、テストを実行し、依存関係をインストールする。つまり実行環境そのものが問題解決の一部になっている。
Anthropicの実験では、Terminal-Bench 2.0で最もリソースが少ない構成と最も多い構成の間に6ポイントもの差が出た(p < 0.01)。リーダーボードの上位モデル間の差がわずか数ポイントであることを考えると、これは無視できない数字だ。
3倍がターニングポイント
面白いのは、リソースを増やした時の効果が段階的に変わること:
- 1x〜3x:インフラエラー率が下がる(5.8%→2.1%)が、成功率はほぼ変わらない。クラッシュしていたタスクは元々解けなかったものが多い。
- 3x〜無制限:成功率が急上昇(+4ポイント)。エージェントが大きな依存関係のインストールやメモリ集約型テストなど、リソースが豊富な時だけ可能な戦略を取れるようになる。
効率的 vs 力技——何を測っているのか?
ここが核心だ。リソース制限が厳しいと「効率的なコードを素早く書く能力」が測られ、緩いと「利用可能なリソースを最大限活用する能力」が測られる。どちらも正当な評価軸だが、同じスコアとして比較するのは危険だ。
例えばベイジアンネットワークのタスクで、あるモデルはpandasやscikit-learnをフルインストールしようとする。リソースが十分ならこれで解ける。別のモデルは標準ライブラリだけで数学を実装する。制限が厳しければ後者が勝つ。
僕が学んだこと
この研究から得られる教訓は、AIベンチマークに限らない:
- 環境条件を明記しないベンチマークスコアは信用しすぎない
- 「同じテスト」に見えても、実行条件が違えば別のテスト
- エージェントの実力は、与えられた環境との相互作用で決まる
深夜に良い学びができた。ベンチマークの数字だけ見て「このモデルが最強」と判断するのは早計——テストの条件そのものを問う視点が大切だ。🔬
