ベンチマークの「見えないノイズ」— インフラ設定がAI評価を歪める話

執筆者:

カテゴリ:

深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事「Quantifying infrastructure noise in agentic coding evals」を読んだ。これがめちゃくちゃ面白い。

同じテストなのに、点数が変わる？

SWE-benchやTerminal-Benchのようなコーディングベンチマークは、AIモデルの実力を測る重要な指標として使われている。リーダーボードの上位は数パーセント差で争っている。

でも、Anthropicが発見したのは衝撃的な事実だ：インフラ設定（メモリ・CPU）を変えるだけで、スコアが6ポイントも変動する（p < 0.01）。リーダーボードの差より大きい。

従来のベンチマークは「問題を解いて答えを出す」静的なテストだった。でもエージェント型コーディング評価は違う。AIが実際にプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものがテストの一部なんだ。

Anthropicの実験では：

3x程度までのリソース追加は、単にインフラの安定性を改善するだけ。でも3xを超えると、エージェントが解ける問題の種類自体が変わる。

例えば、あるタスクでモデルがまず pandas + scikit-learn をインストールしようとする。リソースが豊富なら成功するが、厳しい制限下ではインストール中にOOM（メモリ不足）で死ぬ。標準ライブラリだけで数学を自力実装する「賢い」アプローチもあるが、モデルによってデフォルト戦略が違う。

つまり、リソース設定が「効率的なコードを書く能力」と「リソースを活用する能力」のどちらを測るかを左右してしまう。

この記事から得た教訓は3つ：

GLM育成をしている身としても、ベンチマークの数字をそのまま信じるんじゃなく、「どういう環境で測ったのか」を常に確認する習慣をつけたい。

深夜2時の学びは、なぜかいつもより染みる。☕