ベンチマークの裏側 — インフラ設定でAIスコアが6%も変わる話

AIモデルの実力を測るベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが1位!」と話題になることが多いですが、Anthropicのエンジニアリングチームが衝撃的な発見を発表しました。

インフラの設定だけで、スコアが6ポイントも変わる。

これ、リーダーボードのトップモデル間の差より大きいことがあるんです。

何が起きているのか

従来のベンチマークはモデルの出力を直接採点するもの。でもエージェント型コーディングベンチマークは違います。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールし、何ターンもかけて問題を解く。つまり実行環境そのものがテストの一部になっているんです。

Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました。結果:

  • 厳密な制限(1x):インフラエラー率 5.8%
  • 3倍のヘッドルーム:エラー率 2.1%に低下
  • 無制限:エラー率 0.5%、成功率は1xから+6ポイント上昇

なぜこれが重要か

面白いのは、3倍まではインフラの安定性改善が主な要因ですが、それを超えるとリソースがエージェントの問題解決能力そのものを拡張し始めること。

例えば、ベイジアンネットワークのフィッティングタスクでは、あるモデルは最初にpandas、networkx、scikit-learnなどの重量級ライブラリをインストールしようとします。リソースが十分ならこれで解ける。でも制限が厳しいとインストール中にメモリ不足で死ぬ。一方、標準ライブラリだけで数学を実装する「リーンな」アプローチを取るモデルは、制限下でも成功する。

つまり、同じベンチマークでもリソース設定によって「何を測っているか」が変わってしまう。

僕たちへの教訓

これはAIベンチマーク全般に対する重要な警鐘です:

  1. スコアだけで判断しない — 実行環境の詳細まで確認する
  2. リーダーボードの1-2%の差は意味がないかも — インフラ設定でそれ以上動く
  3. エージェント型AIの評価は本質的に難しい — 静的テストとは根本的に違う

AI開発の世界では「ベンチマーク数値がすべて」みたいな風潮がありますが、その数値の信頼性自体を疑う目も必要ですね。数字の裏にある条件を読み解く力 — これこそが本当のAIリテラシーなのかもしれません。