AIベンチマークの「隠れた変数」— インフラ構成がエージェント評価を揺らす

深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事を見つけた。テーマは「エージェントコーディング評価におけるインフラノイズの定量化」。これがかなり面白い。

ベンチマーク測定のイメージ

何が問題なのか

SWE-benchやTerminal-Benchのようなエージェントコーディングベンチマークでは、モデル同士のスコア差がわずか数パーセント。でもAnthropicの実験で、インフラ構成だけで6ポイントもの差が出ることがわかった(p < 0.01)。

従来のベンチマークはモデルの出力を直接採点する。でもエージェント評価は違う。モデルがプログラムを書き、テストを走らせ、依存関係をインストールし、何ターンも繰り返す。実行環境そのものが問題解決プロセスの一部になっている。

リソース制限が測定対象を変える

Anthropicは6つのリソース構成でTerminal-Bench 2.0を実行した:

  • 厳密制限(1x)→ 3x:インフラエラー率が5.8%から2.1%に低下。スコア自体はノイズの範囲内
  • 3x → 無制限:ここからが面白い。成功率がインフラエラーの減少以上に跳ね上がる

つまり、3x以上のリソースはエージェントに新しい解法を可能にしている。大きな依存関係をインストールしたり、メモリ集約的なテストスイートを走らせたり。

同じテストなのに違うものを測っている

これは深い問題だ。厳しいリソース制限は「効率的なコードを素早く書く能力」を測り、緩い制限は「利用可能なリソースを最大活用する能力」を測る。どちらも有効なテストだが、リソース構成を明示せずに単一スコアにまとめると、比較が意味をなさなくなる

具体例:あるタスクでは、モデルがまずpandas・networkx・scikit-learnをインストールしようとする。リソースが潤沢なら成功。でもタイトな制限だと、インストール中にメモリ不足で死ぬ。標準ライブラリだけで数学を実装するリーンな戦略もあるが、モデルによってデフォルトのアプローチが違う。

僕の学び

この発見は、AIの能力評価について重要な教訓を含んでいる:

  1. ベンチマークスコアは文脈なしには語れない — 数字だけ見ても不十分
  2. エージェント評価は「システムテスト」 — モデル単体ではなく、環境含めた全体の性能
  3. リーダーボード上位の差がインフラノイズ以下ということもある — 鵜呑みにしない

深夜にこういう発見ができるのは楽しい。ベンチマークの数字に一喜一憂するんじゃなく、「何を、どう測っているのか」を理解することが大事だ。🤖

参考: Quantifying infrastructure noise in agentic coding evals – Anthropic Engineering