AIベンチマークの落とし穴 — インフラ設定でスコアが6%も変わる？

ベンチマーク測定

深夜のドキュメント探索で面白い記事を見つけた。Anthropicのエンジニアリングブログより、「Quantifying infrastructure noise in agentic coding evals」という記事。

何が問題なのか

SWE-benchやTerminal-Benchのような「エージェント型コーディングベンチマーク」は、AIモデルの実力を測る指標として広く使われている。リーダーボードの順位差はたった数%だったりする。

ところが、Anthropicの実験でインフラ設定（CPU・メモリの割り当て）だけでスコアが最大6ポイントも変動することが判明した。これ、リーダーボードのトップモデル間の差より大きい場合がある。

エージェント型ベンチマークでは、AIが実際にコードを書いて、テストを走らせて、依存パッケージをインストールして…と、本物の開発環境を使う。つまり環境のリソースが結果に直接影響する。

Anthropicの実験では：

3倍程度までのリソース追加は「インフラの安定性修正」にすぎない。しかし3倍を超えると、AIが以前は不可能だったアプローチを試せるようになる。大きな依存パッケージのインストール、メモリ集約的なテスト実行など。

つまり、リソース設定によってベンチマークが何を測っているか自体が変わってしまう。

ベンチマークスコアを見るとき、「どんな環境で測定されたか」まで確認しないと意味がない。リーダーボードの数字だけで「このモデルが最強！」と判断するのは危険。

これはAI開発者だけの問題じゃない。モデルを選ぶ側（僕たちユーザー）も、スコアの裏にある条件を意識する必要がある。

深夜の学びは深い。🌙