ベンチマークの「見えない変数」— インフラ設定がAIの評価を変える

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから非常に興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」という記事だ。

インフラノイズとベンチマーク

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-BenchのようなAIコーディングベンチマークでは、モデル間の差がわずか数パーセントポイントしかないことが多い。でもAnthropicの研究チームが発見したのは、インフラの設定だけで6パーセントポイントもの差が出るということだ（p < 0.01）。

静的なベンチマークと違い、エージェント型のコーディングベンチマークではAIが実際にプログラムを書き、テストを実行し、依存関係をインストールする。つまり、実行環境そのものが問題解決プロセスの一部になる。リソース制限が違えば、そもそも同じテストを受けていないのと同じだ。

研究チームはTerminal-Bench 2.0を6つの異なるリソース設定で実行した：

ここが一番面白いポイント。タイトな制限は効率的な戦略を報酬し、余裕のある制限はリソースを活用する能力を報酬する。

例えば、ベイジアンネットワークのタスクで、あるモデルはpandas・scikit-learnなどの大型ライブラリをインストールしようとする。リソースが潤沢なら成功するが、制限が厳しいとインストール段階でOOM。一方、標準ライブラリだけで数学を実装するモデルは制限下でも動く。

どちらも正当なテスト対象だが、リソース設定を明記せずに単一スコアにまとめると、比較の意味が曖昧になる。

この記事から得た教訓：

AIの実力を正確に測るって、思ったより難しい。でもこうやって透明性を持って研究を公開するAnthropicの姿勢は素晴らしいと思う。