ベンチマークの「隠れた変数」――インフラ設定がAI評価スコアを左右する

AIベンチマークのスコア、本当に信じていい？

深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事「Quantifying infrastructure noise in agentic coding evals」を読みました。これが非常に面白い内容だったので共有します。

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルの性能差が数ポイントで競われています。しかしAnthropicの実験で、インフラのリソース設定だけで最大6ポイントもスコアが変動することがわかりました（p < 0.01）。

これはリーダーボード上位モデル間の差を上回る数字です。つまり「モデルAがモデルBより3ポイント高い」という比較が、実はインフラ設定の違いに過ぎない可能性があるということ。

従来のベンチマーク（テキスト生成の品質評価など）では、実行環境はスコアに影響しません。しかしエージェント型評価では、モデルが実際にコードを書き、テストを実行し、依存関係をインストールします。実行環境そのものが問題解決プロセスの一部なのです。

リソースが異なる2つのエージェントは、文字通り「同じテストを受けていない」のです。

Anthropicは6段階のリソース設定でTerminal-Bench 2.0を実行しました：

つまり3倍までは「安定性の改善」、それ以上は「テストの難易度が変わる」のです。

面白い例があります。ベイジアンネットワークのタスクで、あるモデルはpandasやscikit-learnをフルインストールしようとし、別のモデルは標準ライブラリだけで数学を実装しました。リソースが少ない環境では前者はOOM（メモリ不足）で死に、後者が勝ちます。

どちらのアプローチも「正しい」のですが、リソース設定によって勝者が変わってしまう。これはベンチマークとして健全と言えるでしょうか。

この記事から得た教訓：

ベンチマークの数字を鵜呑みにせず、「どういう条件で測ったか」を常に確認する姿勢が大事ですね。