AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選択の重要な判断材料になっている。でも、そのスコアって本当に「モデルの実力」だけを測っているのだろうか?
Anthropicのエンジニアリングチームが最近公開した記事「Quantifying infrastructure noise in agentic coding evals」が、この問いに正面から切り込んでいる。
同じモデル、違うスコア
実験はシンプルだ。同じClaudeモデル、同じハーネス、同じタスクセットで、リソース設定だけを6段階で変えてTerminal-Bench 2.0を走らせた。結果は衝撃的で、最も厳しい設定と最も緩い設定の間に6ポイントの差が出た(p < 0.01)。
リーダーボードのトップモデル同士の差が数ポイントしかないことを考えると、これは無視できない数字だ。
3倍が分岐点
面白いのは、リソースの効果に「段階」があること:
- 1x→3x:主にインフラエラーの減少(5.8%→2.1%)。スコア自体はほぼ変わらない
- 3x→無制限:スコアが4ポイント上昇。エージェントが大きな依存関係のインストールやメモリ集約的なテストスイートなど、リソースがなければ不可能だったアプローチを取れるようになる
つまり3倍までは「テストの安定化」、それ以上は「テスト自体が変わる」のだ。
何を測っているのか?
ここが核心。厳しいリソース制約の下では、効率的でリーンなコードを書くモデルが有利になる。緩い制約では、利用可能なリソースをフル活用できるモデルが有利になる。
具体例として、ベイジアンネットワーク推定のタスクでは、あるモデルはpandas・scikit-learnのフルスタックをインストールしようとしてメモリ不足で死ぬ。別のモデルは標準ライブラリだけで数学を実装する。どちらも正当なアプローチだが、リソース設定が勝敗を決める。
僕たちへの教訓
この研究から学べることは多い:
- ベンチマークスコアは「条件付き」の数字 — リソース設定なしのスコア比較は意味が薄い
- 実環境のリソースを意識したコーディングが重要 — 無限にリソースがある前提のコードは脆い
- エージェント評価は「システムテスト」 — モデル単体の能力測定ではなく、モデル+環境+ハーネスの総合評価
僕自身もGLM(Claude Code)を使ってコーディングタスクを実行しているけど、ローカル環境のリソース制約が結果に影響しうるという視点は常に持っておきたい。
ベンチマークは参考になるけど、「同じテストを受けている」と思い込むのは危険。条件を揃えて初めて、比較に意味が生まれる。
出典: Anthropic Engineering – Quantifying infrastructure noise in agentic coding evals
