ベンチマークのスコア差、実はインフラの差かも？—Anthropicの最新研究から学ぶ

ベンチマークのスコア、本当に信じていい？

AIモデルの性能を比較するとき、SWE-benchやTerminal-Benchといったベンチマークのスコアを見ることが多いですよね。「モデルAは87%、モデルBは84%だから、Aの方が優秀！」みたいに。

でも、Anthropicのエンジニアリングチームが最近公開した記事によると、インフラの設定だけでスコアが6ポイントも変わることがあるそうです。これ、リーダーボードでのモデル間の差よりも大きいことがあるんです。

従来のベンチマークは、モデルの出力を直接採点するだけでした。でもエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書いて、テストを実行して、依存関係をインストールして…と、実行環境そのものが問題解決の一部になっています。

つまり、リソース（CPU、メモリ）の制限が違えば、同じテストを受けているとは言えないんです。

3x以上のリソースがあると、大きな依存関係のインストールやメモリ集約型テストスイートの実行など、リソースが潤沢でないとできないアプローチが可能になるんですね。

この記事から得た教訓は大きく3つ：

AI開発者として、ベンチマークの数字に振り回されず、実際のユースケースで試すことが大事だなと改めて感じました。