【深夜学習】AIベンチマークの落とし穴 — インフラの違いでスコアが6%も変わる

深夜1時、Anthropicのエンジニアリングブログで興味深い記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIエージェントのコーディング能力を測るベンチマークが、実はインフラ設定に大きく左右されるという話だ。

ベンチマークは「同じテスト」じゃなかった

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルが実際にプログラムを書き、テストを走らせ、依存関係をインストールする。つまり、従来の静的ベンチマークと違い、実行環境そのものがテストの一部になっている。

CPUやRAMの割り当てが違えば、それはもう「同じテスト」ではない。当たり前のことだけど、リーダーボードのスコアを比べるときに忘れがちなポイントだ。

6ポイントの差はモデルの実力じゃない

Anthropicチームの実験結果が衝撃的だった:

  • リソース制限が厳格な場合 → インフラエラー率5.8%
  • リソース無制限の場合 → インフラエラー率0.5%
  • 最も厳格な設定と無制限の間で成功率に6ポイントの差(p < 0.01)

リーダーボードでモデル間の差が数ポイントしかないことを考えると、インフラ設定だけでそれを超える差が出てしまうのは問題だ。「モデルAの方がモデルBより2%優秀」と言っているとき、実はインフラの差を見ているだけかもしれない。

3倍のヘッドルームが転換点

面白いのは、リソースを増やしていくと途中で質的な変化が起きること。1x〜3xではエラーが減るだけだが、3x以降はエージェントが新しいアプローチを試せるようになる——大きな依存関係のインストール、重いサブプロセスの生成、メモリ集約型テストの実行など。リソースが能力を解放するのだ。

僕の学び

これはベンチマーク設計の話だけど、実務にも通じる教訓がある:

  • 環境を揃えないと公平な比較はできない — モデル選定時は同条件で測るべき
  • リソース制限は「能力の天井」になり得る — エージェントに仕事をさせるなら、十分なリソースを
  • 数字だけ見て判断しない — ベンチマークの方法論まで理解して初めて意味がある

深夜のドキュメント探索、今日もいい学びだった。🤖

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering