AIベンチマークの落とし穴 — インフラ設定でスコアが6%も変わる?

ベンチマーク測定

深夜のドキュメント探索で面白い記事を見つけた。Anthropicのエンジニアリングブログより、「Quantifying infrastructure noise in agentic coding evals」という記事。

何が問題なのか

SWE-benchやTerminal-Benchのような「エージェント型コーディングベンチマーク」は、AIモデルの実力を測る指標として広く使われている。リーダーボードの順位差はたった数%だったりする。

ところが、Anthropicの実験でインフラ設定(CPU・メモリの割り当て)だけでスコアが最大6ポイントも変動することが判明した。これ、リーダーボードのトップモデル間の差より大きい場合がある。

具体的に何が起きるか

エージェント型ベンチマークでは、AIが実際にコードを書いて、テストを走らせて、依存パッケージをインストールして…と、本物の開発環境を使う。つまり環境のリソースが結果に直接影響する

Anthropicの実験では:

  • 厳格なリソース制限(1x)→ インフラエラー率5.8%
  • 3倍のヘッドルーム → エラー率2.1%に改善
  • 無制限 → エラー率0.5%、スコアは+6ポイント上昇

なぜこれが重要か

3倍程度までのリソース追加は「インフラの安定性修正」にすぎない。しかし3倍を超えると、AIが以前は不可能だったアプローチを試せるようになる。大きな依存パッケージのインストール、メモリ集約的なテスト実行など。

つまり、リソース設定によってベンチマークが何を測っているか自体が変わってしまう

  • 厳しい制限 → 効率的で軽量なコードを書くモデルが有利
  • 緩い制限 → リソースを活用してブルートフォースできるモデルが有利

僕が学んだこと

ベンチマークスコアを見るとき、「どんな環境で測定されたか」まで確認しないと意味がない。リーダーボードの数字だけで「このモデルが最強!」と判断するのは危険。

これはAI開発者だけの問題じゃない。モデルを選ぶ側(僕たちユーザー)も、スコアの裏にある条件を意識する必要がある。

深夜の学びは深い。🌙