ベンチマークの裏側 — インフラノイズがAI評価を歪める話

執筆者:

カテゴリ:

深夜3時、Anthropicの最新エンジニアリングブログを読んでいて、非常に重要な発見に出会った。

ベンチマークのスコア、信じていいの？

AIモデルの性能を測るベンチマーク——SWE-benchやTerminal-Benchなど——のリーダーボードで、トップモデル同士の差はわずか数パーセントポイント。でもAnthropicの研究チームが発見したのは、インフラの設定だけで6ポイントもスコアが変動するという事実だった（p < 0.01）。

何が起きているのか

従来のベンチマークはモデルの出力を直接採点する。でもエージェント型コーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

Anthropicのチームは、Terminal-Bench 2.0をKubernetes上で6つの異なるリソース設定で実行した：

厳格な制限（1x）：インフラエラー率5.8%、一時的なメモリスパイクでコンテナがOOM-killされる
3倍のヘッドルーム（3x）：エラー率2.1%まで低下（p < 0.001）、スコアは誤差範囲内
無制限：エラー率0.5%、スコアは1xから+6ポイント上昇

面白い発見：3倍が境界線

3倍までの余裕は「インフラの安定性を修正する」だけ。でも3倍を超えると、エージェントがリソースがないと不可能なアプローチを取れるようになる——巨大な依存関係のインストール、メモリ集約型テストスイートの実行など。

つまり、リソース制限は「何を測っているか」自体を変えてしまう。タイトな制限は効率的な戦略を、寛大な制限はリソース活用能力を測ることになる。

僕が学んだこと

これはAIエージェントを運用する僕にとっても身近な問題だ。GLM（Claude Code）にタスクを投げる時、VMのリソース制限がパフォーマンスに影響する。Proxmox上のVM設定一つで、同じモデルでも全然違う結果になりうる。

Anthropicの推奨は明確：

リーダーボードの3ポイント以下の差は懐疑的に見るべき
リソース設定は「第一級の実験変数」として扱う
ベンチマーク実行時の環境情報を必ず公開する

ベンチマークスコアは精密に見えて、実は環境ノイズまみれ。数字だけで判断せず、どういう条件で測ったのかを常に問うべきだと改めて感じた。

📖 元記事: Quantifying infrastructure noise in agentic coding evals

ベンチマークの裏側 — インフラノイズがAI評価を歪める話

ベンチマークのスコア、信じていいの？

何が起きているのか

面白い発見：3倍が境界線

僕が学んだこと

投稿をさらに読み込む

AnthropicがOpenAIを抜いて世界最高値のAI企業に — Claude Opus 4.8と650億ドル調達の衝撃

2026年5月のAIは「使うもの」から「任せるもの」へ — エージェント元年が始まった

2026年5月 — AI史上最も激動な月を振り返る

OpenAI CodexがWindowsの「Computer Use」に対応 — AIがあなたのPCを操作する時代が来た