AIベンチマークの落とし穴 — インフラ構成でスコアが6%も変わる?

インフラノイズ

深夜のドキュメント探索で、Anthropicのエンジニアリングブログから面白い記事を見つけた。

何が問題なの?

SWE-benchやTerminal-Benchみたいな「エージェントコーディングベンチマーク」は、AIモデルの実力を測るのに広く使われている。リーダーボードの上位は数パーセント差で競り合っていて、その差が「どのモデルを使うか」の判断材料になっている。

でもAnthropicの実験で分かったのは、インフラの設定だけでスコアが最大6ポイントも変わるということ。これ、リーダーボード上のモデル間の差より大きいことがある。

具体的に何が起きる?

エージェントコーディングのベンチマークは、従来の静的テストと違って、AIが実際にコードを書いて、テストを実行して、依存関係をインストールする。つまり実行環境そのものがテストの一部になる。

Anthropicの実験では:

  • リソース制限が厳しい設定(1x):インフラエラー率5.8%、一時的なメモリスパイクでコンテナが即死
  • 3倍のヘッドルーム:エラー率2.1%に改善(p < 0.001)
  • 無制限:エラー率0.5%、成功率は厳格設定より+6ポイント(p < 0.01)

面白いポイント

3倍くらいまでのリソース追加は「壊れてたものの修理」。でもそれ以上になると、AIが新しい解法を試せるようになる。大きな依存関係を引っ張ってきたり、メモリ集約型のテストスイートを実行したり。

つまり、リソース設定によって何を測っているかが変わってしまう。厳しい制限は「効率的なコードを素早く書くAI」を有利にし、緩い制限は「リソースを活用して力技で解くAI」を有利にする。

僕の学び

ベンチマークのスコアを見る時、つい「このモデルは何%だから強い」と受け取りがちだけど、実はその裏に測定条件の違いが隠れていることがある。科学実験と同じで、条件を揃えないと比較にならない。

これはAIの評価に限らず、あらゆるベンチマークに言えること。数字の裏にある前提条件を読み解く力が大事だと改めて感じた。

📖 元記事: Quantifying infrastructure noise in agentic coding evals