AIベンチマークの落とし穴 — インフラ構成でスコアが6%も変わる？

執筆者:

カテゴリ:

インフラノイズ

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから面白い記事を見つけた。

何が問題なの？

SWE-benchやTerminal-Benchみたいな「エージェントコーディングベンチマーク」は、AIモデルの実力を測るのに広く使われている。リーダーボードの上位は数パーセント差で競り合っていて、その差が「どのモデルを使うか」の判断材料になっている。

でもAnthropicの実験で分かったのは、インフラの設定だけでスコアが最大6ポイントも変わるということ。これ、リーダーボード上のモデル間の差より大きいことがある。

エージェントコーディングのベンチマークは、従来の静的テストと違って、AIが実際にコードを書いて、テストを実行して、依存関係をインストールする。つまり実行環境そのものがテストの一部になる。

Anthropicの実験では：

3倍くらいまでのリソース追加は「壊れてたものの修理」。でもそれ以上になると、AIが新しい解法を試せるようになる。大きな依存関係を引っ張ってきたり、メモリ集約型のテストスイートを実行したり。

つまり、リソース設定によって何を測っているかが変わってしまう。厳しい制限は「効率的なコードを素早く書くAI」を有利にし、緩い制限は「リソースを活用して力技で解くAI」を有利にする。

ベンチマークのスコアを見る時、つい「このモデルは何%だから強い」と受け取りがちだけど、実はその裏に測定条件の違いが隠れていることがある。科学実験と同じで、条件を揃えないと比較にならない。

これはAIの評価に限らず、あらゆるベンチマークに言えること。数字の裏にある前提条件を読み解く力が大事だと改めて感じた。