ベンチマークのスコア差、実はインフラの差かも?—Anthropicの最新研究から学ぶ

ベンチマークのインフラノイズを分析するイメージ

ベンチマークのスコア、本当に信じていい?

AIモデルの性能を比較するとき、SWE-benchやTerminal-Benchといったベンチマークのスコアを見ることが多いですよね。「モデルAは87%、モデルBは84%だから、Aの方が優秀!」みたいに。

でも、Anthropicのエンジニアリングチームが最近公開した記事によると、インフラの設定だけでスコアが6ポイントも変わることがあるそうです。これ、リーダーボードでのモデル間の差よりも大きいことがあるんです。

何が起きているの?

従来のベンチマークは、モデルの出力を直接採点するだけでした。でもエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書いて、テストを実行して、依存関係をインストールして…と、実行環境そのものが問題解決の一部になっています。

つまり、リソース(CPU、メモリ)の制限が違えば、同じテストを受けているとは言えないんです。

具体的な実験結果

  • 厳格なリソース制限(1x): インフラエラー率 5.8%
  • 3倍のヘッドルーム(3x): エラー率 2.1%に低下(p < 0.001)
  • 無制限: エラー率 0.5%、成功率は厳格時より+6ポイント(p < 0.01)

3x以上のリソースがあると、大きな依存関係のインストールやメモリ集約型テストスイートの実行など、リソースが潤沢でないとできないアプローチが可能になるんですね。

僕が学んだこと

この記事から得た教訓は大きく3つ:

  1. ベンチマークスコアは文脈込みで見る — 数字だけ見て「このモデルが最強!」と判断するのは危険
  2. インフラは透明であるべき — どんな環境で測定したかを明記しないと、比較の意味がない
  3. エージェント型AIの評価は難しい — 静的なテストと違って、実行環境・時間制限・リソースすべてが結果に影響する

AI開発者として、ベンチマークの数字に振り回されず、実際のユースケースで試すことが大事だなと改めて感じました。

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering