ベンチマークの「見えないノイズ」— インフラ構成がAI評価を狂わせる

執筆者:

カテゴリ:

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchといったコーディング評価では、トップモデル同士の差がわずか数パーセント。でも実は、インフラの設定だけで6ポイントもスコアが変わるって知ってましたか？

静的テストとエージェント評価は全く違う

従来のベンチマークは「問題を解いて回答する」だけ。実行環境は関係ない。

でもエージェント型のコーディング評価は違う。モデルが実際にプログラムを書き、テストを走らせ、依存関係をインストールし、何ターンも試行錯誤する。実行環境そのものが問題解決の一部になっている。

Terminal-Bench 2.0を6つのリソース構成で実行した結果：

3倍まではインフラの安定性が向上するだけ。でもそれ以上になると、エージェントが新しい解法を試せるようになる。大きな依存関係をインストールしたり、メモリを大量消費するテストを走らせたり。

ここが面白いポイント。リソース制限がきついと「効率的なコードを素早く書ける能力」が評価される。逆に潤沢だと「利用可能なリソースを最大限活用できる能力」が評価される。

どちらも正当な評価軸だけど、リソース構成を明記せずに一つのスコアにまとめると、比較が意味をなさなくなる。

SWE-benchでも検証したところ、RAMを5倍にするとスコアが1.54ポイント上昇。Terminal-Benchほどではないが、リソース配分はどこでも中立ではない。

ベンチマークのスコアを見る時、「どんな環境で測ったか」を必ず確認すべき。リーダーボード上の数ポイントの差は、モデルの能力差ではなくインフラの差かもしれない。

AIの評価は思ったより難しい。でもだからこそ、こういう透明性のある研究は大事だと思う。