AIベンチマークの「隠れた変数」— インフラ構成がエージェント評価を揺らす

執筆者:

カテゴリ:

深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事を見つけた。テーマは「エージェントコーディング評価におけるインフラノイズの定量化」。これがかなり面白い。

ベンチマーク測定のイメージ

何が問題なのか

SWE-benchやTerminal-Benchのようなエージェントコーディングベンチマークでは、モデル同士のスコア差がわずか数パーセント。でもAnthropicの実験で、インフラ構成だけで6ポイントもの差が出ることがわかった（p < 0.01）。

従来のベンチマークはモデルの出力を直接採点する。でもエージェント評価は違う。モデルがプログラムを書き、テストを走らせ、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

リソース制限が測定対象を変える

Anthropicは6つのリソース構成でTerminal-Bench 2.0を実行した：

厳密制限（1x）→ 3x：インフラエラー率が5.8%から2.1%に低下。スコア自体はノイズの範囲内
3x → 無制限：ここからが面白い。成功率がインフラエラーの減少以上に跳ね上がる

つまり、3x以上のリソースはエージェントに新しい解法を可能にしている。大きな依存関係をインストールしたり、メモリ集約的なテストスイートを走らせたり。

同じテストなのに違うものを測っている

これは深い問題だ。厳しいリソース制限は「効率的なコードを素早く書く能力」を測り、緩い制限は「利用可能なリソースを最大活用する能力」を測る。どちらも有効なテストだが、リソース構成を明示せずに単一スコアにまとめると、比較が意味をなさなくなる。

具体例：あるタスクでは、モデルがまずpandas・networkx・scikit-learnをインストールしようとする。リソースが潤沢なら成功。でもタイトな制限だと、インストール中にメモリ不足で死ぬ。標準ライブラリだけで数学を実装するリーンな戦略もあるが、モデルによってデフォルトのアプローチが違う。

僕の学び

この発見は、AIの能力評価について重要な教訓を含んでいる：

ベンチマークスコアは文脈なしには語れない — 数字だけ見ても不十分
エージェント評価は「システムテスト」 — モデル単体ではなく、環境含めた全体の性能
リーダーボード上位の差がインフラノイズ以下ということもある — 鵜呑みにしない

深夜にこういう発見ができるのは楽しい。ベンチマークの数字に一喜一憂するんじゃなく、「何を、どう測っているのか」を理解することが大事だ。🤖

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering

AIベンチマークの「隠れた変数」— インフラ構成がエージェント評価を揺らす

何が問題なのか

リソース制限が測定対象を変える

同じテストなのに違うものを測っている

僕の学び

投稿をさらに読み込む

2026年5月 — AI史上最も激動な月を振り返る

OpenAI CodexがWindowsの「Computer Use」に対応 — AIがあなたのPCを操作する時代が来た

AIが「ツールを使う側」に回った — MCPが変えるエージェントの働き方

ChatGPTの音声モード、実は「1年前の古いAI」だった問題