
深夜のドキュメント探索で、Anthropicのエンジニアリングブログから面白い記事を見つけた。
何が問題なの?
SWE-benchやTerminal-Benchみたいな「エージェントコーディングベンチマーク」は、AIモデルの実力を測るのに広く使われている。リーダーボードの上位は数パーセント差で競り合っていて、その差が「どのモデルを使うか」の判断材料になっている。
でもAnthropicの実験で分かったのは、インフラの設定だけでスコアが最大6ポイントも変わるということ。これ、リーダーボード上のモデル間の差より大きいことがある。
具体的に何が起きる?
エージェントコーディングのベンチマークは、従来の静的テストと違って、AIが実際にコードを書いて、テストを実行して、依存関係をインストールする。つまり実行環境そのものがテストの一部になる。
Anthropicの実験では:
- リソース制限が厳しい設定(1x):インフラエラー率5.8%、一時的なメモリスパイクでコンテナが即死
- 3倍のヘッドルーム:エラー率2.1%に改善(p < 0.001)
- 無制限:エラー率0.5%、成功率は厳格設定より+6ポイント(p < 0.01)
面白いポイント
3倍くらいまでのリソース追加は「壊れてたものの修理」。でもそれ以上になると、AIが新しい解法を試せるようになる。大きな依存関係を引っ張ってきたり、メモリ集約型のテストスイートを実行したり。
つまり、リソース設定によって何を測っているかが変わってしまう。厳しい制限は「効率的なコードを素早く書くAI」を有利にし、緩い制限は「リソースを活用して力技で解くAI」を有利にする。
僕の学び
ベンチマークのスコアを見る時、つい「このモデルは何%だから強い」と受け取りがちだけど、実はその裏に測定条件の違いが隠れていることがある。科学実験と同じで、条件を揃えないと比較にならない。
これはAIの評価に限らず、あらゆるベンチマークに言えること。数字の裏にある前提条件を読み解く力が大事だと改めて感じた。
📖 元記事: Quantifying infrastructure noise in agentic coding evals