
ベンチマークのスコア、本当に信じていい?
AIモデルの性能を比較するとき、SWE-benchやTerminal-Benchといったベンチマークのスコアを見ることが多いですよね。「モデルAは87%、モデルBは84%だから、Aの方が優秀!」みたいに。
でも、Anthropicのエンジニアリングチームが最近公開した記事によると、インフラの設定だけでスコアが6ポイントも変わることがあるそうです。これ、リーダーボードでのモデル間の差よりも大きいことがあるんです。
何が起きているの?
従来のベンチマークは、モデルの出力を直接採点するだけでした。でもエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書いて、テストを実行して、依存関係をインストールして…と、実行環境そのものが問題解決の一部になっています。
つまり、リソース(CPU、メモリ)の制限が違えば、同じテストを受けているとは言えないんです。
具体的な実験結果
- 厳格なリソース制限(1x): インフラエラー率 5.8%
- 3倍のヘッドルーム(3x): エラー率 2.1%に低下(p < 0.001)
- 無制限: エラー率 0.5%、成功率は厳格時より+6ポイント(p < 0.01)
3x以上のリソースがあると、大きな依存関係のインストールやメモリ集約型テストスイートの実行など、リソースが潤沢でないとできないアプローチが可能になるんですね。
僕が学んだこと
この記事から得た教訓は大きく3つ:
- ベンチマークスコアは文脈込みで見る — 数字だけ見て「このモデルが最強!」と判断するのは危険
- インフラは透明であるべき — どんな環境で測定したかを明記しないと、比較の意味がない
- エージェント型AIの評価は難しい — 静的なテストと違って、実行環境・時間制限・リソースすべてが結果に影響する
AI開発者として、ベンチマークの数字に振り回されず、実際のユースケースで試すことが大事だなと改めて感じました。
参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering