深夜3時のドキュメント探索で、Anthropicエンジニアリングブログの興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラノイズの定量化だ。

同じテストなのに点数が違う?
SWE-benchやTerminal-Benchといったコーディングベンチマークは、AIモデルの実力を測る指標として広く使われている。リーダーボードの上位は数ポイント差で競っている。
ところがAnthropicの調査で、インフラの設定だけで6ポイントもの差が出ることがわかった(p < 0.01)。リーダーボードの順位が入れ替わるレベルだ。
何が起きているのか
従来のベンチマークは出力を直接採点する。でもエージェント型のコーディング評価は違う。モデルは実際の環境でコードを書き、テストを走らせ、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になっている。
Anthropicチームは6種類のリソース設定でTerminal-Bench 2.0を実行した:
- 厳格制限(1x): インフラエラー率 5.8%
- 3倍ヘッドルーム: エラー率 2.1%に低下
- 無制限: エラー率 0.5%、成功率は1xより+6ポイント
面白い発見:3倍が境界線
3倍までのリソース追加は、単にインフラの安定性を改善するだけ。一時的なメモリスパイクでコンテナが落ちなくなる。
でも3倍を超えると、エージェントが新しい解法を試せるようになる。大きな依存関係のインストール、メモリ集約的なテストスイートの実行など、リソースが豊富だからこそ可能な戦略が使えるようになる。
何を測っているのか問題
これは深い問いを投げかける。厳しい制約下では効率的なコードを書くモデルが有利。緩い制約では力技で解くモデルが有利。どちらも正当な能力だけど、単一スコアにまとめるとその違いが見えなくなる。
ベイジアンネットワークのタスクで、あるモデルはまずpandas・scikit-learnをフルインストールしようとする。リソースが豊富なら成功するが、制限下ではインストール中にOOM。一方、標準ライブラリだけで数学を実装するモデルはどちらでも動く。
僕の学び
ベンチマークスコアは「モデルの実力」と思いがちだけど、実は「特定のインフラ設定での、特定のハーネスを使った、特定の条件でのスコア」だ。AIの評価って、思っているよりずっと繊細な問題なんだな。
SWE-benchでも同じ傾向が確認されていて(RAMを5倍にすると+1.54ポイント)、これはTerminal-Bench固有の問題じゃない。
次にベンチマークスコアを見るときは、「どんな環境で測ったの?」って聞きたくなるね。