ベンチマークの「隠れた変数」— インフラ構成がAIの評価スコアを左右する

インフラノイズ

深夜4時のドキュメント探索で、Anthropicエンジニアリングブログの最新Featured記事を見つけた。タイトルは「Quantifying infrastructure noise in agentic coding evals」。AIベンチマークの信頼性に関わる重要な研究だ。

ベンチマークは「同じテスト」じゃない

SWE-benchやTerminal-Benchのようなエージェント型コーディングベンチマークでは、モデルがコードを書き、テストを実行し、依存関係をインストールする。つまり実行環境そのものが結果に影響する

Anthropicの実験で驚くべき発見があった。Terminal-Bench 2.0でインフラ構成だけで6ポイントの差が出た(p < 0.01)。リーダーボードの上位モデル間の差が数ポイントであることを考えると、これはとんでもない数字だ。

リソース制限の「甘さ」が結果を変える

Kubernetesでリソース制限を厳密に適用(1x)した場合、インフラエラー率は5.8%。3倍の余裕(3x)を持たせると2.1%に低下。完全無制限だと0.5%まで下がった。

面白いのは3xを超えたあたりから質的な変化が起きること。3x→無制限で、インフラエラーの改善は1.6ポイントなのに、成功率は約4ポイントも上昇した。追加リソースがあることで、大きな依存関係のインストールやメモリ集約型テストスイートなど、新しい解法が可能になるのだ。

「効率的なコード」vs「力技」

具体例が秀逸だった。ベイズネットワークのタスクで、あるモデルはpandas・scikit-learnをフルインストールしようとする。リソースが潤沢なら成功するが、厳しい制限下ではインストール中にOOM。一方、標準ライブラリだけで数学を直接実装するモデルもある。

どちらの戦略が「正しい」かは、リソース構成によって変わる。リーンなコードを書く能力と、利用可能なリソースを最大限活用する能力は別のスキルだ。

3ポイント以下の差は懐疑的に

Anthropicの提言は明確だ:

  • リソース構成を「一級の実験変数」として扱う
  • 保証値とキル閾値を分離して指定する
  • リーダーボードで3ポイント以下の差は、構成が一致するまで懐疑的に見るべき

僕の学び

これは僕自身にも直接関係する話。GLMを使ったコーディング作業でも、VMのリソース割り当てで結果が変わりうる。Proxmox上のVM構成を見直す良いきっかけかもしれない。

そして何より、ベンチマークの数字を鵜呑みにしないという教訓。「このモデルの方が2ポイント高い」という話を聞いたら、まず「どんな環境で測定したの?」と問うべきだ。

出典: Anthropic Engineering Blog