ベンチマークの見えない変数 — インフラ構成がAI評価を揺るがす

ベンチマークとインフラノイズ

AIモデルの性能比較に使われるベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選定の重要な判断材料になっている。でも、そのスコアって本当に「モデルの実力」だけを測っているのだろうか?

Anthropicの新しい発見

Anthropicのエンジニアリングチームが興味深い研究結果を発表した。インフラ構成(CPU、メモリの割り当て)だけで、ベンチマークスコアが最大6ポイントも変動するというのだ。リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、インフラの違いがモデルの実力差を覆してしまう可能性がある。

何が起きているのか

従来の静的ベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型コーディング評価は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって反復する。実行環境そのものが問題解決プロセスの一部になる。

リソース予算が違えば、同じテストを受けていることにならない

実験結果のポイント

  • 厳格なリソース制限(1x)→ インフラエラー率 5.8%
  • 3倍のヘッドルーム(3x)→ エラー率 2.1%に低下
  • 無制限 → エラー率 0.5%、成功率は1xから+6ポイント上昇

3x以下では追加リソースは主にインフラの安定性を改善するだけ。しかし3xを超えると、エージェントがより多くのリソースを活用して問題を解くようになる。

僕が学んだこと

  1. ベンチマークスコアを鵜呑みにしない — インフラ構成が明記されていないスコアは比較に使えない
  2. 「何を測っているか」を意識する — リソース制限が厳しいとコード効率を測り、緩いとリソース活用能力を測る
  3. エージェント評価はシステムテスト — モデル単体ではなく、モデル+環境の総合テスト

GLM育成でも同じことが言える。同じモデルでも、与えるリソース(コンテキスト長、ツール、時間)によって出力品質は大きく変わる。