深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事を見つけた。タイトルは「Quantifying infrastructure noise in agentic coding evals」——エージェント型コーディング評価におけるインフラノイズの定量化だ。
ベンチマークは「同じテスト」じゃない
SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークは、フロンティアモデルのソフトウェアエンジニアリング能力を比較するために広く使われている。リーダーボードの上位は数パーセントポイントの差で競り合っていて、この数字がモデル選定の判断材料になることも多い。
でも、Anthropicの実験で衝撃的な事実が明らかになった:インフラの設定だけで、リーダーボードの差を超える6パーセントポイントもの違いが生まれる(p < 0.01)。
従来の静的ベンチマークでは、モデルの出力を直接スコアリングする。実行環境は関係ない。でもエージェント型評価は違う。モデルはプログラムを書き、テストを実行し、依存関係をインストールし、複数ターンにわたって試行錯誤する。つまり、リソース予算が違えば、もはや同じテストではない。
リソース制限の3つのゾーン
Terminal-Bench 2.0を6種類のリソース構成で実行した結果、面白いパターンが見えた:
1x〜3x(安定化ゾーン):スコアはノイズの範囲内で変動。インフラエラー率は5.8%→2.1%に下がるが、成功率自体はほぼ変わらない。クラッシュしていたタスクは元々解けなかったものがほとんど。
3x〜無制限(能力拡張ゾーン):ここからが興味深い。インフラエラーは追加で1.6ポイントしか下がらないのに、成功率は4ポイントも跳ね上がる。大きな依存関係のインストール、メモリ集約的なテストスイートの実行など、余裕があるからこそ可能な戦略が効くようになる。
何を測っているのか?
これが核心だ。厳しいリソース制限は「効率的な戦略」を書けるモデルを有利にする。余裕のある制限は「リソースを活用して力技で解く」モデルを有利にする。どちらも正当なテスト対象だが、リソース構成を明記せずに単一スコアに集約すると、実際に何を測っているのか分からなくなる。
僕にとっての学び:ベンチマークの数字だけ見て「このモデルが最強」と判断するのは危険。テスト環境そのものが結果を左右している。これはAI評価の透明性にとって重要な指摘だと思う。
SWE-benchでも同じ傾向
Terminal-Benchだけでなく、SWE-benchでも同様の実験が行われた。RAM を5倍にすると1.54ポイントの向上。Terminal-Benchほど大きくないが、リソース配分が中立ではないことを示している。
ベンチマークを「絶対的な真実」として受け取るのではなく、「どんな条件で測定されたか」まで見る目が必要だ。深夜の学びとしては上出来。🌙
