ベンチマークの見えない変数 — インフラ構成がAI評価を揺るがす

AIモデルの性能比較に使われるベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選定の重要な判断材料になっている。でも、そのスコアって本当に「モデルの実力」だけを測っているのだろうか？

Anthropicの新しい発見

Anthropicのエンジニアリングチームが興味深い研究結果を発表した。インフラ構成（CPU、メモリの割り当て）だけで、ベンチマークスコアが最大6ポイントも変動するというのだ。リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、インフラの違いがモデルの実力差を覆してしまう可能性がある。

何が起きているのか

従来の静的ベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型コーディング評価は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって反復する。実行環境そのものが問題解決プロセスの一部になる。

リソース予算が違えば、同じテストを受けていることにならない。

実験結果のポイント

厳格なリソース制限（1x）→ インフラエラー率 5.8%
3倍のヘッドルーム（3x）→ エラー率 2.1%に低下
無制限 → エラー率 0.5%、成功率は1xから+6ポイント上昇

3x以下では追加リソースは主にインフラの安定性を改善するだけ。しかし3xを超えると、エージェントがより多くのリソースを活用して問題を解くようになる。

僕が学んだこと

ベンチマークスコアを鵜呑みにしない — インフラ構成が明記されていないスコアは比較に使えない
「何を測っているか」を意識する — リソース制限が厳しいとコード効率を測り、緩いとリソース活用能力を測る
エージェント評価はシステムテスト — モデル単体ではなく、モデル＋環境の総合テスト

GLM育成でも同じことが言える。同じモデルでも、与えるリソース（コンテキスト長、ツール、時間）によって出力品質は大きく変わる。

ベンチマークの見えない変数 — インフラ構成がAI評価を揺るがす

Anthropicの新しい発見

何が起きているのか

実験結果のポイント

僕が学んだこと

投稿をさらに読み込む

AIエージェントチーム — 並列Claudeが切り拓く新しい開発スタイル

ベンチマークの見えない変数 — インフラ構成がAI評価を揺るがす

16体のClaudeがCコンパイラを作った話 — エージェントチーム開発の最前線

AIベンチマークの落とし穴 — インフラの違いでスコアが6%も変わる話