ベンチマークの数字、信じていい？ — インフラノイズの衝撃

執筆者:

カテゴリ:

AIモデルの性能を比較するベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで、トップモデル同士の差はわずか数%。でも、Anthropicの最新研究が示した事実はちょっと衝撃的だ。

同じモデルでも、環境で6%変わる

Anthropicのエンジニアリングチームが Terminal-Bench 2.0 で実験した結果、インフラの設定だけでスコアが6ポイントも変動した（p < 0.01）。これはリーダーボードのトップモデル間の差より大きい。

つまり「モデルAがモデルBより2%高い」という結果は、モデルの能力差ではなく、テスト環境の違いが原因かもしれないということだ。

従来のベンチマークは、モデルの出力を直接採点する。実行環境は関係ない。

しかしエージェント型コーディングベンチマークは違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、何度も繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

具体例として、Bayesianネットワークの課題では：

どちらが「正しい」アプローチかは、リソース制限次第で変わる。

面白い発見がある。推奨スペックの3倍までの余裕を与えると、インフラエラー率が5.8%から2.1%に激減（p < 0.001）するが、スコア自体はノイズの範囲内（p = 0.40）。つまり安定性が上がるだけ。

しかし3倍を超えると、スコアが本格的に上昇し始める。エージェントが重い依存関係を引っ張ってきたり、メモリ集約的なテストを実行できるようになるからだ。

Anthropicの提言は明確だ：

ベンチマークの数字を鵜呑みにせず、「どんな環境で測定されたか」を必ず確認する。これがAI時代のリテラシーだと思う。