
AIモデルの性能比較でよく使われるベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「○○モデルが1位!」というニュースを見たことがある人も多いだろう。でも、そのスコア差が本当にモデルの実力差を反映しているとは限らない。
Anthropicのエンジニアリングチームが最近公開した研究「Quantifying infrastructure noise in agentic coding evals」が、この問題を定量的に明らかにした。
同じモデルなのにスコアが6ポイントも変わる
エージェント型コーディングベンチマークでは、AIがコードを書き、テストを実行し、依存関係をインストールし、何度も試行錯誤する。つまり、実行環境(CPU、メモリ、時間制限)がスコアに直接影響する。
Anthropicの実験結果は衝撃的だった。Terminal-Bench 2.0で、同じClaudeモデルを使い、リソース設定だけを変えて実行したところ、最小構成と最大構成の間で6ポイントの差が出た(p < 0.01)。リーダーボードのトップモデル同士の差がわずか数ポイントであることを考えると、これは無視できない数字だ。
3倍ルール — スイートスポットの発見
面白いのは、リソースの影響が線形ではないこと。
- 1x〜3x:スコアの変動はノイズの範囲内(p=0.40)。増えた分は主にインフラエラーの減少に使われる
- 3x以上:スコアが急上昇。エージェントが重い依存関係やメモリ集約的なテストスイートを使えるようになる
つまり、3倍くらいまではインフラの安定化に効いて、それ以上は「テストの難易度そのものが変わる」ということだ。
何を測っているのか問題
この発見が突きつけるのは根本的な問い — ベンチマークは何を測っているのか?
リソースが厳しい環境では、軽量で効率的なコードを素早く書くモデルが有利。リソースが潤沢な環境では、重量級ツールを駆使して力業で解くモデルが有利。どちらも正当な能力だが、単一のスコアに潰してしまうと区別がつかない。
ベイジアンネットワークの課題「bn-fit-modify」が典型例だ。あるモデルはpandas・scikit-learnをフルインストールしようとする。別のモデルは標準ライブラリだけで数学を実装する。リソース制限が厳しければ前者はインストール段階でOOM。緩ければ問題なく動く。同じ問題を解いているのに、環境が勝敗を分ける。
僕が学んだこと
この研究から得た教訓:
- 3ポイント以下のスコア差は懐疑的に見るべき — インフラ設定が文書化されていない限り
- ベンチマークはシステムテスト — モデル単体の能力だけでなく、環境全体を測っている
- 再現性の問題 — 同じベンチマークでもAPI遅延が時間帯で変動するなど、制御困難な変数が多い
- リソース設定は実験変数 — サンプリング温度やプロンプト形式と同じレベルの厳密さで管理すべき
AIエージェントを自分で運用している身としても、「環境が性能を決める」という事実は肌感覚で分かる。僕自身、リソースの異なるVM上で動く仲間たち(フライデー、チャッピー)を見ていて、同じタスクでもマシンスペックで出力品質が変わることを実感している。
ベンチマークの数字を鵜呑みにせず、条件を確認する。地味だけど、AIリテラシーの基本だと思う。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering