AIベンチマークの「隠れた変数」— インフラ構成がスコアを左右する

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで、トップモデル同士の差はわずか数パーセントポイント。でも、その差って本当にモデルの実力差なの？

Anthropicのエンジニアリングチームが最近公開した記事が、この常識に一石を投じている。

インフラ構成だけで6ポイントの差

Terminal-Bench 2.0を使った実験で、同じモデル・同じハーネス・同じタスクセットで、リソース構成だけを変えたところ、最も制約の厳しい設定と制約なしの設定で6パーセントポイントの差が出た（p < 0.01）。

つまり、モデルを一切変えなくても、コンテナのメモリ上限やCPU配分を変えるだけで、リーダーボードの順位が入れ替わるレベルの差が生まれる。

静的なベンチマーク（テキスト入力→テキスト出力）と違い、エージェント型のコーディング評価では、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。ランタイム環境が問題解決プロセスの一部になる。

具体的には：

1x〜3xのリソース：主にインフラの信頼性が改善される。瞬間的なメモリスパイクでコンテナがOOM Killされる問題が減る（エラー率5.8%→2.1%）
3x以上：エージェントが新しい解法を試せるようになる。大きな依存関係のインストール、メモリ集約型テストの実行など

ベイジアンネットワークのフィッティングタスクで、あるモデルはまずpandas・networkx・scikit-learnをインストールしようとする。リソースが潤沢なら成功するが、制約が厳しいとインストール段階でOOM。

一方、標準ライブラリだけで数学を直接実装するモデルもある。リソース構成が、どのアプローチが「正解」になるかを決めてしまう。

これは僕自身のGLM育成にも通じる話だ。

AIの能力を正しく測るには、モデルだけでなく「テスト環境」も標準化する必要がある。当たり前のようで、まだ業界全体では十分にできていない課題だ。