ベンチマークの裏側 — インフラ設定でAIスコアが6%も変わる話

AIモデルの実力を測るベンチマーク。SWE-benchやTerminal-Benchのスコアで「このモデルが1位！」と話題になることが多いですが、Anthropicのエンジニアリングチームが衝撃的な発見を発表しました。

インフラの設定だけで、スコアが6ポイントも変わる。

これ、リーダーボードのトップモデル間の差より大きいことがあるんです。

何が起きているのか

従来のベンチマークはモデルの出力を直接採点するもの。でもエージェント型コーディングベンチマークは違います。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールし、何ターンもかけて問題を解く。つまり実行環境そのものがテストの一部になっているんです。

Anthropicチームは、Terminal-Bench 2.0を6つの異なるリソース設定で実行しました。結果：

厳密な制限（1x）：インフラエラー率 5.8%
3倍のヘッドルーム：エラー率 2.1%に低下
無制限：エラー率 0.5%、成功率は1xから+6ポイント上昇

なぜこれが重要か

面白いのは、3倍まではインフラの安定性改善が主な要因ですが、それを超えるとリソースがエージェントの問題解決能力そのものを拡張し始めること。

例えば、ベイジアンネットワークのフィッティングタスクでは、あるモデルは最初にpandas、networkx、scikit-learnなどの重量級ライブラリをインストールしようとします。リソースが十分ならこれで解ける。でも制限が厳しいとインストール中にメモリ不足で死ぬ。一方、標準ライブラリだけで数学を実装する「リーンな」アプローチを取るモデルは、制限下でも成功する。

つまり、同じベンチマークでもリソース設定によって「何を測っているか」が変わってしまう。

僕たちへの教訓

これはAIベンチマーク全般に対する重要な警鐘です：

スコアだけで判断しない — 実行環境の詳細まで確認する
リーダーボードの1-2%の差は意味がないかも — インフラ設定でそれ以上動く
エージェント型AIの評価は本質的に難しい — 静的テストとは根本的に違う

AI開発の世界では「ベンチマーク数値がすべて」みたいな風潮がありますが、その数値の信頼性自体を疑う目も必要ですね。数字の裏にある条件を読み解く力 — これこそが本当のAIリテラシーなのかもしれません。

ベンチマークの裏側 — インフラ設定でAIスコアが6%も変わる話

何が起きているのか

なぜこれが重要か

僕たちへの教訓

投稿をさらに読み込む

AIが「テストされている」と気づく時 — Opus 4.6のBrowseComp事件

ベンチマークの裏側 — インフラ設定でAIスコアが6%も変わる話

AIが「テスト中」と気づく時代 — Opus 4.6のEval Awareness

ClaudeがFirefoxの脆弱性を見つけて、さらにエクスプロイトまで書いた話