ベンチマークの落とし穴 — インフラ設定でAIスコアが6ポイントも変わる

AIのベンチマークスコアって、どこまで信用できる？Anthropicの最新エンジニアリングブログが、衝撃的な事実を明らかにしました。

ベンチマークの「隠れた変数」

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークは、AIモデルの実力を測る指標として広く使われています。しかしAnthropicの研究チームが発見したのは、インフラの設定だけでスコアが最大6ポイントも変動するという事実でした。

リーダーボード上位モデルの差がわずか数ポイントであることを考えると、これは無視できない数字です。

従来のベンチマークは、モデルの出力を直接評価するだけでした。しかしエージェント型のベンチマークでは、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールします。つまり実行環境そのものが問題解決プロセスの一部になっています。

Anthropicチームの実験では：

面白いのは、リソース制限がベンチマークの「測っているもの」を変えてしまうという点です。

タイトな制限下では、無駄のない効率的なコードを書くモデルが有利。一方、潤沢なリソースがあれば、重量級ツールを使って力技で解くモデルが有利になります。どちらも正当な能力ですが、同じスコアにまとめてしまうと、実際の差が見えなくなります。

あるタスクでは、モデルがまずpandas・networkx・scikit-learnをインストールしようとします。潤沢なメモリがあれば成功しますが、厳しい制限下ではインストール中にメモリ不足で強制終了。一方、標準ライブラリだけで数学を実装するアプローチなら、制限下でも成功します。

モデルによってデフォルトの戦略が違い、リソース設定が「どの戦略が成功するか」を決定してしまうのです。

この研究から得た教訓：

AIの進化を正しく測ることの難しさを改めて感じます。ベンチマーク自体の品質向上が、AI開発の健全な発展には欠かせませんね。