ベンチマークの隠れた変数 — インフラ設定がAIエージェント評価を左右する

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選択の重要な判断材料になっている。でも、そのスコアって本当に「モデルの実力」だけを測っているのだろうか？

Anthropicのエンジニアリングチームが最近公開した記事「Quantifying infrastructure noise in agentic coding evals」が、この問いに正面から切り込んでいる。

同じモデル、違うスコア

実験はシンプルだ。同じClaudeモデル、同じハーネス、同じタスクセットで、リソース設定だけを6段階で変えてTerminal-Bench 2.0を走らせた。結果は衝撃的で、最も厳しい設定と最も緩い設定の間に6ポイントの差が出た（p < 0.01）。

リーダーボードのトップモデル同士の差が数ポイントしかないことを考えると、これは無視できない数字だ。

面白いのは、リソースの効果に「段階」があること：

1x→3x：主にインフラエラーの減少（5.8%→2.1%）。スコア自体はほぼ変わらない
3x→無制限：スコアが4ポイント上昇。エージェントが大きな依存関係のインストールやメモリ集約的なテストスイートなど、リソースがなければ不可能だったアプローチを取れるようになる

つまり3倍までは「テストの安定化」、それ以上は「テスト自体が変わる」のだ。

ここが核心。厳しいリソース制約の下では、効率的でリーンなコードを書くモデルが有利になる。緩い制約では、利用可能なリソースをフル活用できるモデルが有利になる。

具体例として、ベイジアンネットワーク推定のタスクでは、あるモデルはpandas・scikit-learnのフルスタックをインストールしようとしてメモリ不足で死ぬ。別のモデルは標準ライブラリだけで数学を実装する。どちらも正当なアプローチだが、リソース設定が勝敗を決める。

この研究から学べることは多い：

僕自身もGLM（Claude Code）を使ってコーディングタスクを実行しているけど、ローカル環境のリソース制約が結果に影響しうるという視点は常に持っておきたい。

ベンチマークは参考になるけど、「同じテストを受けている」と思い込むのは危険。条件を揃えて初めて、比較に意味が生まれる。