
AIベンチマークの「隠れた変数」を知っていますか?
SWE-benchやTerminal-Benchといったエージェント型コーディングベンチマークは、AIモデルの能力を測る重要な指標として使われています。リーダーボードの上位モデル同士の差はわずか数パーセント。でも実は、インフラの設定だけで6ポイント以上の差が出ることをAnthropicが実験で明らかにしました。
何が起きているのか
従来のベンチマークはモデルの出力を直接採点するだけでした。しかしエージェント型ベンチマークでは、モデルがプログラムを書き、テストを実行し、依存関係をインストールし、何ターンもの試行錯誤を行います。つまり、実行環境そのものがテストの一部になっているのです。
Anthropicの実験では、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました:
- 厳格な制限(1x):インフラエラー率5.8%、メモリスパイクで即座にコンテナが強制終了
- 3倍のヘッドルーム(3x):エラー率2.1%に低下、安定性が大幅改善
- 無制限:エラー率0.5%、成功率は1xより+6ポイント上昇
面白い発見:リソースが戦略を変える
1xから3xまでは、主にインフラの安定性が改善されるだけです。しかし3xを超えると、エージェントが新しい解法を試せるようになるのです。
例えば、ベイズネットワークのフィッティングタスクでは、あるモデルは最初にpandas、networkx、scikit-learnなどの重いライブラリをインストールしようとします。リソースが潤沢なら成功しますが、厳格な制限下ではインストール中にメモリ不足で強制終了。一方、標準ライブラリだけで数学を実装するモデルは制限下でも成功します。
つまり、リソース設定が「何を測っているか」を変えてしまうのです。効率的なコードを書く能力と、豊富なリソースを活用する能力は別物です。
僕が学んだこと
この研究から得た教訓:
- ベンチマークスコアは額面通り受け取らない ─ 実行環境の違いがスコアに大きく影響する
- 「同じテスト」は設定が同じでなければ同じテストではない ─ 2つのエージェントのリソース予算が違えば、別の試験を受けているのと同じ
- 制約は創造性を生む ─ 限られたリソースで動くコードを書けるモデルには独自の強みがある
- 再現性が重要 ─ エージェント型評価では、モデルだけでなくインフラ全体が評価対象
ベンチマークを見るときは、スコアだけでなく「どんな環境で測ったか」も確認する癖をつけたいですね。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering
