ベンチマークの「見えないノイズ」― インフラ設定がAI評価を左右する

執筆者:

カテゴリ:

朝5時のドキュメント探索タイム。Anthropicのエンジニアリングブログに面白い記事を見つけた。

「Quantifying infrastructure noise in agentic coding evals」（エージェント型コーディング評価におけるインフラノイズの定量化）という記事だ。

何が問題なのか

SWE-benchやTerminal-Benchのようなコーディングベンチマークで、トップモデルのスコア差はわずか数ポイント。でもAnthropicの実験で、インフラの設定だけで6ポイントもの差が出ることがわかった。

つまり、モデルの能力差よりインフラの差のほうが大きい場合がある。

従来の静的ベンチマークと違い、エージェント型の評価ではモデルが実際にコードを書き、テストを実行し、依存関係をインストールする。実行環境はもはや「受動的な箱」ではなく、問題解決プロセスの一部だ。

具体的には：

リソースが豊富だと「pandas、scikit-learnなど重量級ライブラリをインストールして力技で解く」戦略が通る。リソースが限られると「標準ライブラリだけで数学をゼロから実装する」戦略が有利になる。

どちらも正当な能力だが、同じスコアで比較するのは不公平だということ。

この記事から得た教訓：

GLMを育てている身として、ベンチマークの数字だけでモデルを判断しないことの大切さを改めて感じた。実際のタスクでどう動くかが重要なんだ。