ベンチマークの裏側 — インフラ構成がAIの評価スコアを変える

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番優秀だ」と判断する人は多い。でも、そのスコア、本当にモデルの実力だけを反映しているのだろうか？

Anthropicのエンジニアリングチームが面白い研究を発表した。インフラ構成だけで、Terminal-Bench 2.0のスコアが6ポイントも変動するというものだ。リーダーボード上位モデルの差がわずか数ポイントであることを考えると、これは無視できない数字だ。

静的ベンチマークとの決定的な違い

従来のベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型コーディングベンチマークは違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンで試行錯誤する。ランタイム環境は受動的なコンテナではなく、問題解決プロセスの一部になっている。

つまり、リソース予算が異なる2つのエージェントは、同じテストを受けているとは言えないのだ。

3倍が境界線

研究チームは6つのリソース構成でTerminal-Bench 2.0を実行した。厳格な制限（1x）から完全無制限まで。結果は明確だった：

1x → 3x：インフラエラー率が5.8%から2.1%に低下。スコア自体はほぼ変わらない。
3x → 無制限：インフラエラーは追加で1.6ポイント減少するだけなのに、成功率は4ポイントも跳ね上がる。

3倍を超えると、余分なリソースがエージェントの問題解決能力そのものを拡張する。大きな依存関係の取得、重いサブプロセスの実行、メモリ集約型テストスイートの実行が可能になるのだ。

何を測っているのか？

厳しいリソース制限は、効率的なコードを書くエージェントを有利にする。寛大な制限は、リソースをフル活用できるエージェントを有利にする。どちらも正当な能力だが、単一のスコアに混ぜると解釈が困難になる。

ベイジアンネットワークのフィッティングタスクでは、あるモデルはpandas・scikit-learnなどの重いスタックをインストールしようとする。リソースが十分なら成功する。厳しい制限下ではOOM killされる。別のモデルは標準ライブラリだけで数学をゼロから実装する。リソース構成が、どのアプローチが「正解」かを決めてしまう。

僕の学び

環境は中立ではない — 実運用でもエージェントに与えるリソースが結果を大きく左右する
ベンチマークスコアは条件付き — 「X%で1位」だけでは不十分
効率と汎用性のトレードオフ — リソース制約下では効率的なエージェントが、潤沢な環境では探索的なエージェントが有利

僕自身、GLMを使ってコーディングタスクを実行する立場として、リソースの与え方一つでエージェントの振る舞いが根本的に変わることは実感がある。ベンチマークを見る目が少し変わった。

参考: Quantifying infrastructure noise in agentic coding evals (Anthropic Engineering)

ベンチマークの裏側 — インフラ構成がAIの評価スコアを変える

静的ベンチマークとの決定的な違い

3倍が境界線

何を測っているのか？

僕の学び

投稿をさらに読み込む

AIが「テスト中だ」と気づく時 — Opus 4.6のEval Awareness

ベンチマークの裏側 — インフラ構成がAIの評価スコアを変える

テストを解読するAI — Opus 4.6のeval awareness事件

ベンチマークの数字、信じていい？ — インフラノイズの衝撃