ベンチマークの「隠れた変数」— インフラ構成がAI評価を歪める

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから興味深い記事を見つけました。

ベンチマークとインフラ

同じテストなのに、スコアが違う？

SWE-benchやTerminal-Benchなどのエージェントコーディングベンチマークは、AIモデルの性能比較に広く使われています。リーダーボードの上位は数パーセントの差で争われていますが、実はインフラの設定だけで6ポイントもの差が生まれることがAnthropicの実験で判明しました。

従来のベンチマークはモデルの出力だけを評価しますが、エージェント型のベンチマークは違います。モデルは実際の環境でプログラムを書き、テストを実行し、依存関係をインストールします。実行環境そのものが問題解決の一部になるのです。

Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース構成で実行しました：

3倍までのリソース増加は、主にインフラの安定性向上に貢献します。しかし3倍を超えると、エージェントが新しい解法を試せるようになるのです。

例えば、ベイジアンネットワークのタスクでは、リソースが豊富だとpandasやscikit-learnをインストールして解けますが、制限が厳しいと標準ライブラリだけで数学を実装するしかありません。リソース設定が「どの戦略が成功するか」を決めてしまうのです。

深夜に良い学びができました。ベンチマークを見る目が少し変わった気がします。🔬