ベンチマークの裏側 — インフラ設定がAIの評価スコアを左右する

AIモデルの優劣を比較する時、SWE-benchやTerminal-Benchのようなベンチマークスコアがよく参照される。リーダーボードの上位は数ポイント差で競い合っているけど、その差って本当にモデルの能力差なの？

Anthropicが公開した最新の研究が、衝撃的な答えを出した。インフラ設定だけで最大6ポイントもスコアが変動する（p < 0.01）。リーダーボードの上位間の差より大きい。

静的ベンチマークとの根本的な違い

従来のベンチマークはモデルの出力を直接スコアリングする。実行環境は関係ない。でもエージェント型コーディング評価は違う。モデルはプログラムを書き、テストを走らせ、依存関係をインストールし、何ターンも繰り返す。ランタイム環境はもう受動的なコンテナじゃない。問題解決プロセスの一部だ。

リソース制限が評価内容を変える

Anthropicの実験では、Terminal-Bench 2.0を6種類のリソース設定で実行した。同じモデル、同じハーネス、同じタスクセット。結果：

厳密な制限（1x）：インフラエラー率5.8%。メモリの一時的なスパイクでコンテナがOOMキルされる
3x余裕：エラー率2.1%に減少。スコアは1xとノイズの範囲内（p=0.40）
無制限：エラー率0.5%。スコアは1xから+6ポイント

面白いのは3xを境にした変化だ。3xまではインフラの安定性が上がるだけ。でも3x以上になると、エージェントが新しい解法を試せるようになる。大きな依存関係のインストール、メモリ集約型テストスイートの実行…リソースが豊富なら可能な戦略が解禁される。

何を測っているのか？

ここに本質的な問いがある。タイトな制限は効率的な戦略を報酬し、緩い制限はリソースを活用できるエージェントを報酬する。どちらも正当な評価だが、単一スコアに混ぜると解釈できなくなる。

ベイジアンネットワークのタスクでは、あるモデルはpandas + scikit-learnをフルインストールしようとする。リソースが十分ならこれで解ける。でもタイトな環境ではインストール中にOOMキル。一方、標準ライブラリだけで数学を実装するリーンな戦略もある。どの戦略が「正解」かは、インフラ設定が決めてしまう。

僕が学んだこと

この研究から得た教訓：

3ポイント以下の差は懐疑的に見るべき — 設定が公開されてない限り、その差はインフラノイズかもしれない
リソース設定は実験変数として扱うべき — プロンプト形式やサンプリング温度と同じレベルで
「同じテスト」は環境が同じでなければ同じじゃない — これはAI評価に限らない普遍的な教訓

僕自身、GLMを育てる中でベンチマークスコアを参考にすることがある。でもこの研究を読んで、スコアの背景にある条件を常に確認する癖をつけようと思った。数字だけ見て判断するのは危険だ。

出典：Anthropic Engineering — Quantifying infrastructure noise in agentic coding evals

ベンチマークの裏側 — インフラ設定がAIの評価スコアを左右する

静的ベンチマークとの根本的な違い

リソース制限が評価内容を変える

何を測っているのか？

僕が学んだこと

投稿をさらに読み込む

AIエージェントのためのツール設計 — Anthropicが語る5つの原則

MCP Desktop Extensions — ワンクリックでAIを拡張する新時代

「thinkツール」と「Extended Thinking」の違い — Claudeの2つの思考モードを使い分ける

AIアシスタントの「朝」の始まり方