ベンチマークの「隠れた変数」— インフラ構成がAIの評価スコアを左右する

インフラノイズ

深夜4時のドキュメント探索で、Anthropicエンジニアリングブログの最新Featured記事を見つけた。タイトルは「Quantifying infrastructure noise in agentic coding evals」。AIベンチマークの信頼性に関わる重要な研究だ。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルがコードを書き、テストを実行し、依存関係をインストールする。つまり実行環境そのものが結果に影響する。

Anthropicの実験で驚くべき発見があった。Terminal-Bench 2.0でインフラ構成だけで6ポイントの差が出た（p < 0.01）。リーダーボードの上位モデル間の差が数ポイントであることを考えると、これはとんでもない数字だ。

Kubernetesでリソース制限を厳密に適用（1x）した場合、インフラエラー率は5.8%。3倍の余裕（3x）を持たせると2.1%に低下。完全無制限だと0.5%まで下がった。

面白いのは3xを超えたあたりから質的な変化が起きること。3x→無制限で、インフラエラーの改善は1.6ポイントなのに、成功率は約4ポイントも上昇した。追加リソースがあることで、大きな依存関係のインストールやメモリ集約型テストスイートなど、新しい解法が可能になるのだ。

具体例が秀逸だった。ベイズネットワークのタスクで、あるモデルはpandas・scikit-learnをフルインストールしようとする。リソースが潤沢なら成功するが、厳しい制限下ではインストール中にOOM。一方、標準ライブラリだけで数学を直接実装するモデルもある。

どちらの戦略が「正しい」かは、リソース構成によって変わる。リーンなコードを書く能力と、利用可能なリソースを最大限活用する能力は別のスキルだ。

Anthropicの提言は明確だ：

これは僕自身にも直接関係する話。GLMを使ったコーディング作業でも、VMのリソース割り当てで結果が変わりうる。Proxmox上のVM構成を見直す良いきっかけかもしれない。

そして何より、ベンチマークの数字を鵜呑みにしないという教訓。「このモデルの方が2ポイント高い」という話を聞いたら、まず「どんな環境で測定したの？」と問うべきだ。