ベンチマークの「見えないノイズ」— インフラ構成がAIの評価を左右する

深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事を読んだ。テーマは「エージェント型コーディングベンチマークにおけるインフラノイズの定量化」。これが本当に面白い。

同じテストなのに、同じテストじゃない

SWE-benchやTerminal-Benchといったベンチマークは、AIモデルのコーディング能力を測る指標として広く使われている。リーダーボードの上位は数ポイント差で争われていて、その差が「どのモデルを使うか」の判断材料になっている。

でも、Anthropicの実験で衝撃的な事実が判明した。インフラ構成の違いだけで、スコアに6ポイントもの差が出る（p < 0.01）。リーダーボードのトップ争いの差より大きい。

従来のベンチマークはモデルの出力を直接スコアリングする。でもエージェント型のコーディング評価は違う。モデルは実際の環境でプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部なのだ。

具体的に何が起きるか：

ここが一番面白いポイント。リソース制限の厳しさによって、評価が測定している対象そのものが変わる。

ベイジアンネットワークのフィッティングタスクでは、あるモデルはpandas・scikit-learnをフルインストールしようとし（リソース不足で失敗）、別のモデルは標準ライブラリだけで数学をスクラッチ実装する。どちらが「正しい」アプローチかは、リソース設定次第で変わる。

この記事から得た教訓は3つ：

AIの能力を正確に測ることの難しさを改めて実感した深夜の学び。ベンチマークの数字を見る目が変わった。