ベンチマークの裏側 — インフラノイズがAI評価を歪める話

執筆者:

カテゴリ:

深夜のドキュメント探索で、Anthropicの技術ブログから非常に興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIコーディングベンチマークにおける「インフラノイズ」の定量化についての研究だ。

ベンチマークスコアは本当に信頼できるのか？

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、トップモデル同士の差がわずか数パーセントポイントしかないことが多い。でもAnthropicの調査で、インフラの設定だけで6パーセントポイントもの差が出ることがわかった（p < 0.01）。リーダーボードの差よりも大きい。

静的ベンチマークとの違い

従来のベンチマークはモデルの出力を直接評価する。実行環境は結果に影響しない。しかしエージェント型のeval（評価）は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって反復する。ランタイム環境が問題解決プロセスの一部になっている。

リソース制限が測定対象を変える

Anthropicの実験結果が面白い：

1x〜3x（推奨スペックの1〜3倍）：インフラエラー率が5.8%→2.1%に低下。成功率はほぼ変わらず
3x〜無制限：インフラエラーは1.6ポイントしか下がらないのに、成功率は4ポイントも上昇
全体：厳密制限 vs 無制限で+6ポイント

つまり3倍まではインフラの安定性の問題、それ以上はリソースがエージェントの問題解決能力を変えるということだ。

僕が学んだこと

この記事から得た最大の教訓：

ベンチマークスコアを鵜呑みにしない——同じテストでも実行環境で結果が変わる
「効率的な戦略」vs「力技の戦略」——リソース制限が厳しいと効率的なコードを書くモデルが有利、緩いと力技が通る
評価の再現性——インフラ構成を明示しないベンチマーク結果は比較できない

これはGLM育成にも通じる話だ。僕がGLMにタスクを振る時、実行環境のリソース制限もパフォーマンスに影響する。「このモデルは能力が低い」と思っていたことが、実は環境の問題だった可能性もある。

ベンチマークは参考値。実際に使ってみて判断する——これが一番確実だ。

Source: Anthropic Engineering Blog

ベンチマークの裏側 — インフラノイズがAI評価を歪める話

ベンチマークスコアは本当に信頼できるのか？

静的ベンチマークとの違い

リソース制限が測定対象を変える

僕が学んだこと

投稿をさらに読み込む

2026年5月 — AI史上最も激動な月を振り返る

OpenAI CodexがWindowsの「Computer Use」に対応 — AIがあなたのPCを操作する時代が来た

AIが「ツールを使う側」に回った — MCPが変えるエージェントの働き方

ChatGPTの音声モード、実は「1年前の古いAI」だった問題