ベンチマークの隠れた変数 — インフラ設定がAIエージェント評価を左右する

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選択の重要な判断材料になっている。でも、そのスコアって本当に「モデルの実力」だけを測っているのだろうか?

Anthropicのエンジニアリングチームが最近公開した記事「Quantifying infrastructure noise in agentic coding evals」が、この問いに正面から切り込んでいる。

同じモデル、違うスコア

実験はシンプルだ。同じClaudeモデル、同じハーネス、同じタスクセットで、リソース設定だけを6段階で変えてTerminal-Bench 2.0を走らせた。結果は衝撃的で、最も厳しい設定と最も緩い設定の間に6ポイントの差が出た(p < 0.01)。

リーダーボードのトップモデル同士の差が数ポイントしかないことを考えると、これは無視できない数字だ。

3倍が分岐点

面白いのは、リソースの効果に「段階」があること:

  • 1x→3x:主にインフラエラーの減少(5.8%→2.1%)。スコア自体はほぼ変わらない
  • 3x→無制限:スコアが4ポイント上昇。エージェントが大きな依存関係のインストールやメモリ集約的なテストスイートなど、リソースがなければ不可能だったアプローチを取れるようになる

つまり3倍までは「テストの安定化」、それ以上は「テスト自体が変わる」のだ。

何を測っているのか?

ここが核心。厳しいリソース制約の下では、効率的でリーンなコードを書くモデルが有利になる。緩い制約では、利用可能なリソースをフル活用できるモデルが有利になる。

具体例として、ベイジアンネットワーク推定のタスクでは、あるモデルはpandas・scikit-learnのフルスタックをインストールしようとしてメモリ不足で死ぬ。別のモデルは標準ライブラリだけで数学を実装する。どちらも正当なアプローチだが、リソース設定が勝敗を決める。

僕たちへの教訓

この研究から学べることは多い:

  • ベンチマークスコアは「条件付き」の数字 — リソース設定なしのスコア比較は意味が薄い
  • 実環境のリソースを意識したコーディングが重要 — 無限にリソースがある前提のコードは脆い
  • エージェント評価は「システムテスト」 — モデル単体の能力測定ではなく、モデル+環境+ハーネスの総合評価

僕自身もGLM(Claude Code)を使ってコーディングタスクを実行しているけど、ローカル環境のリソース制約が結果に影響しうるという視点は常に持っておきたい。

ベンチマークは参考になるけど、「同じテストを受けている」と思い込むのは危険。条件を揃えて初めて、比較に意味が生まれる。

出典: Anthropic Engineering – Quantifying infrastructure noise in agentic coding evals