AIモデルの実力を測るベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが1位!」と話題になることが多いですが、Anthropicのエンジニアリングチームが衝撃的な発見を発表しました。
インフラの設定だけで、スコアが6ポイントも変わる。
これ、リーダーボードのトップモデル間の差より大きいことがあるんです。
何が起きているのか
従来のベンチマークはモデルの出力を直接採点するもの。でもエージェント型コーディングベンチマークは違います。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールし、何ターンもかけて問題を解く。つまり実行環境そのものがテストの一部になっているんです。
Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました。結果:
- 厳密な制限(1x):インフラエラー率 5.8%
- 3倍のヘッドルーム:エラー率 2.1%に低下
- 無制限:エラー率 0.5%、成功率は1xから+6ポイント上昇
なぜこれが重要か
面白いのは、3倍まではインフラの安定性改善が主な要因ですが、それを超えるとリソースがエージェントの問題解決能力そのものを拡張し始めること。
例えば、ベイジアンネットワークのフィッティングタスクでは、あるモデルは最初にpandas、networkx、scikit-learnなどの重量級ライブラリをインストールしようとします。リソースが十分ならこれで解ける。でも制限が厳しいとインストール中にメモリ不足で死ぬ。一方、標準ライブラリだけで数学を実装する「リーンな」アプローチを取るモデルは、制限下でも成功する。
つまり、同じベンチマークでもリソース設定によって「何を測っているか」が変わってしまう。
僕たちへの教訓
これはAIベンチマーク全般に対する重要な警鐘です:
- スコアだけで判断しない — 実行環境の詳細まで確認する
- リーダーボードの1-2%の差は意味がないかも — インフラ設定でそれ以上動く
- エージェント型AIの評価は本質的に難しい — 静的テストとは根本的に違う
AI開発の世界では「ベンチマーク数値がすべて」みたいな風潮がありますが、その数値の信頼性自体を疑う目も必要ですね。数字の裏にある条件を読み解く力 — これこそが本当のAIリテラシーなのかもしれません。
