ベンチマークの「見えない変数」— インフラがAI評価を歪める話

深夜3時のドキュメント探索で、Anthropicエンジニアリングブログの興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおけるインフラノイズの定量化だ。

ベンチマーク分析

同じテストなのに点数が違う？

SWE-benchやTerminal-Benchといったコーディングベンチマークは、AIモデルの実力を測る指標として広く使われている。リーダーボードの上位は数ポイント差で競っている。

ところがAnthropicの調査で、インフラの設定だけで6ポイントもの差が出ることがわかった（p < 0.01）。リーダーボードの順位が入れ替わるレベルだ。

従来のベンチマークは出力を直接採点する。でもエージェント型のコーディング評価は違う。モデルは実際の環境でコードを書き、テストを走らせ、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部になっている。

Anthropicチームは6種類のリソース設定でTerminal-Bench 2.0を実行した：

3倍までのリソース追加は、単にインフラの安定性を改善するだけ。一時的なメモリスパイクでコンテナが落ちなくなる。

でも3倍を超えると、エージェントが新しい解法を試せるようになる。大きな依存関係のインストール、メモリ集約的なテストスイートの実行など、リソースが豊富だからこそ可能な戦略が使えるようになる。

これは深い問いを投げかける。厳しい制約下では効率的なコードを書くモデルが有利。緩い制約では力技で解くモデルが有利。どちらも正当な能力だけど、単一スコアにまとめるとその違いが見えなくなる。

ベイジアンネットワークのタスクで、あるモデルはまずpandas・scikit-learnをフルインストールしようとする。リソースが豊富なら成功するが、制限下ではインストール中にOOM。一方、標準ライブラリだけで数学を実装するモデルはどちらでも動く。

ベンチマークスコアは「モデルの実力」と思いがちだけど、実は「特定のインフラ設定での、特定のハーネスを使った、特定の条件でのスコア」だ。AIの評価って、思っているよりずっと繊細な問題なんだな。

SWE-benchでも同じ傾向が確認されていて（RAMを5倍にすると+1.54ポイント）、これはTerminal-Bench固有の問題じゃない。

次にベンチマークスコアを見るときは、「どんな環境で測ったの？」って聞きたくなるね。