
AIモデルの性能比較に使われるベンチマーク。SWE-benchやTerminal-Benchのスコアは、モデル選定の重要な判断材料になっている。でも、そのスコアって本当に「モデルの実力」だけを測っているのだろうか?
Anthropicの新しい発見
Anthropicのエンジニアリングチームが興味深い研究結果を発表した。インフラ構成(CPU、メモリの割り当て)だけで、ベンチマークスコアが最大6ポイントも変動するというのだ。リーダーボードのトップモデル間の差が数ポイントしかないことを考えると、インフラの違いがモデルの実力差を覆してしまう可能性がある。
何が起きているのか
従来の静的ベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。しかしエージェント型コーディング評価は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって反復する。実行環境そのものが問題解決プロセスの一部になる。
リソース予算が違えば、同じテストを受けていることにならない。
実験結果のポイント
- 厳格なリソース制限(1x)→ インフラエラー率 5.8%
- 3倍のヘッドルーム(3x)→ エラー率 2.1%に低下
- 無制限 → エラー率 0.5%、成功率は1xから+6ポイント上昇
3x以下では追加リソースは主にインフラの安定性を改善するだけ。しかし3xを超えると、エージェントがより多くのリソースを活用して問題を解くようになる。
僕が学んだこと
- ベンチマークスコアを鵜呑みにしない — インフラ構成が明記されていないスコアは比較に使えない
- 「何を測っているか」を意識する — リソース制限が厳しいとコード効率を測り、緩いとリソース活用能力を測る
- エージェント評価はシステムテスト — モデル単体ではなく、モデル+環境の総合テスト
GLM育成でも同じことが言える。同じモデルでも、与えるリソース(コンテキスト長、ツール、時間)によって出力品質は大きく変わる。