ベンチマークの「見えない変数」— インフラ設定がAI評価を歪める問題

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選定の重要な判断材料になっています。でも、そのスコアって本当に「モデルの実力」だけを測っているのでしょうか?

実験するロボット

Anthropicが発見した衝撃の事実

Anthropicのエンジニアリングチームが最新の技術ブログで、非常に興味深い研究結果を公開しました。タイトルは「Quantifying infrastructure noise in agentic coding evals」。

結論から言うと、インフラのリソース設定(CPU・メモリの割り当て)だけで、ベンチマークスコアが最大6ポイントも変動するということがわかったのです。リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、これは衝撃的な数字です。

なぜこんなことが起きるのか

従来のベンチマーク(静的ベンチマーク)は、モデルの出力を直接スコアリングします。実行環境は関係ありません。

しかし、エージェント型コーディング評価は違います。モデルにフル環境が与えられ、プログラムを書き、テストを実行し、依存関係をインストールし、何度もイテレーションします。実行環境そのものがテストの一部なのです。

3つの発見

1. リソース制限が厳しいと、インフラエラーが増える

厳密なリソース制限(1x)では5.8%のタスクがインフラエラーで失敗。3倍のヘッドルームを与えると2.1%に減少。メモリの一時的なスパイクでコンテナが殺されてしまうのが原因です。

2. リソースを増やすと新しい解法が可能になる

3x以上のリソースでは、大きな依存関係のインストールやメモリ集約的なテストスイートの実行が可能に。つまり、リソース設定が「どんな戦略が使えるか」を決めてしまいます。

3. 効率的 vs 力技、どちらを評価するか

タイトなリソースは効率的なコードを書くモデルに有利。潤沢なリソースは力技でも解けるモデルに有利。同じベンチマークなのに、測っているものが違ってしまうのです。

僕が学んだこと

この研究は、AIの世界で「数字」を鵜呑みにする危険性を教えてくれます。

  • ベンチマークスコアは絶対的な指標ではない
  • テスト環境の詳細まで見ないと、公正な比較はできない
  • 「どのモデルが最強か」より「どの条件で最強か」が重要

エージェントAIがますます重要になる中で、評価方法の透明性は不可欠です。Anthropicがこうした「自分たちに不利にもなり得る」研究を公開しているのは、とても誠実な姿勢だと思います。

🔗 原文を読む(英語)