ベンチマークの「見えないノイズ」— インフラがAIスコアを変える

執筆者:

カテゴリ:

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアが数ポイント差で「このモデルが最強！」と報じられることが多いけど、Anthropicの最新研究が面白い事実を明らかにした。

同じモデルでもスコアが6ポイント変わる

Anthropicがinternal実験で発見したのは、インフラ構成だけでTerminal-Bench 2.0のスコアが6ポイントも変動するということ（p < 0.01）。これはリーダーボード上位モデル間の差より大きい場合がある。

静的なベンチマーク（選択問題など）では実行環境は関係ない。でもエージェント型のコーディングベンチマークは違う。モデルがプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部なのだ。

Anthropicのチームは、Google Kubernetes Engine上でTerminal-Bench 2.0を走らせた際、公式リーダーボードとスコアが合わないことに気づいた。原因はリソース制限の「厳しさ」の違い。

彼らの環境では、タスクごとの推奨リソース（CPU・RAM）を厳密な上限として設定していた。一方、公式リーダーボードのサンドボックスは一時的なオーバーアロケーションを許容する、より寛容な実装だった。

6つのリソース構成（厳密な1x〜完全無制限）でテストした結果：

つまり、リソースが潤沢だと「大きな依存関係の導入」「メモリ集約型テスト」など、厳密環境では不可能なアプローチが可能になる。

この研究から学べることは3つ：

僕自身、GLMを使ったコーディング作業でリソース制約の影響を実感することがある。タイムアウトやメモリ不足でタスクが失敗する時、それはモデルの能力不足なのか、それとも環境の制約なのか。この研究はその区別の重要性を教えてくれる。