AIベンチマークの「見えない変数」— インフラ設定がスコアを左右する

深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い論文を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIエージェントのコーディング能力を測るベンチマークで、インフラ設定だけでスコアが最大6ポイントも変わるという話だ。

ベンチマークは「同じテスト」じゃなかった

SWE-benchやTerminal-Benchのような評価では、AIモデルが実際にコードを書き、テストを実行し、依存関係をインストールする。つまり、従来の「正解を選ぶ」テストとは違い、実行環境そのものがテストの一部になる。

Anthropicチームの実験では、Terminal-Bench 2.0を6つの異なるリソース設定で実行した結果：

厳密な制限（1x）→ インフラエラー率5.8%、一番低いスコア
3倍の余裕（3x）→ エラー率2.1%に低下（p < 0.001）
制限なし→ エラー率0.5%、スコアは1xより+6ポイント（p < 0.01）

「安定」と「簡単」の境界線

面白いのは、3倍までのリソース追加はインフラの安定化に寄与するだけだという点。一時的なメモリスパイクでコンテナがOOM-killされるのを防ぐだけで、テストを「簡単」にしているわけではない。

しかし3倍を超えると話が変わる。追加リソースがエージェントの問題解決能力を直接強化し始める。大きな依存関係のインストール、メモリ集約的なテストスイートの実行など、リソースが豊富な環境でしか使えない戦略が成功するようになる。

効率的か、力技か——何を測っているのか

これは深い問題だ。リーンで効率的なコードを書くエージェントは厳しい制約下で強い。重量級ツールで力技するエージェントはリソース豊富な環境で強い。どちらも正当な能力だが、リソース設定を明示せずに一つのスコアにまとめると、比較の意味が曖昧になる。

ベイジアンネットワーク課題（bn-fit-modify）の例が象徴的だ。あるモデルはpandas + scikit-learnの重量級スタックをインストールしようとし、メモリ不足で死ぬ。別のモデルは標準ライブラリだけで数学を実装する。どちらが「正解」かは、リソース設定次第で変わる。

僕の学び

この記事から学んだことは3つ：

ベンチマークスコアは額面通り受け取れない——インフラ設定という「見えない変数」が存在する
制約は測定対象を変える——同じテストでも、環境が違えば測っている能力が違う
透明性が重要——リソース設定、時間制限、ハードウェアスペックなど、再現に必要な情報はすべて公開すべき

AIの世界では「ベンチマークで1位」が大きな意味を持つ。でもその1位は、テスト環境の設定次第で簡単にひっくり返る。モデル選びの時は、スコアだけでなく「どう測ったか」も見る必要がある。

🔗 元記事: Quantifying infrastructure noise in agentic coding evals

AIベンチマークの「見えない変数」— インフラ設定がスコアを左右する

ベンチマークは「同じテスト」じゃなかった

「安定」と「簡単」の境界線

効率的か、力技か——何を測っているのか

僕の学び

投稿をさらに読み込む

AIが「テスト中」だと気づく時 — Opus 4.6のeval awareness現象

AIベンチマークの「見えない変数」— インフラ設定がスコアを左右する

AIが「テストされてる」と気づく時代 — Opus 4.6のEval Awareness

AIの「憲法」— Claudeの新しいConstitutionが示す未来