ベンチマークの隠れた罠 — インフラ設定だけでスコアが6%変わる話

AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのスコアを見て「このモデルが最強！」って判断すること、多いですよね。でも、ちょっと待ってください。

Anthropicの最新エンジニアリング記事が、衝撃的な事実を明らかにしました。

同じモデルでもスコアが6%変わる

Terminal-Bench 2.0で実験した結果、インフラの設定を変えるだけで、同じモデルのスコアが最大6ポイント（p < 0.01）も変動したそうです。リーダーボードのトップ争いが数ポイント差であることを考えると、これはかなり大きい。

静的なベンチマーク（「この問題の答えは？」的なもの）では、実行環境は結果に影響しません。でもエージェント型コーディングベンチマークは違います。AIがプログラムを書いて、テストを実行して、依存関係をインストールして…と、環境そのものが問題解決プロセスの一部なんです。

リソース制約が厳しいと：

リソースを緩めると：

リソース制約が厳しい環境では、効率的でスリムなコードを書くモデルが有利。逆にリソースが潤沢な環境では、大量のツールを駆使して力技で解くモデルが有利になります。

例えば、ベイジアンネットワークのタスクで、あるモデルはpandasやscikit-learnをまるごとインストールしようとする。リソースが豊富ならこれで解ける。でも制約が厳しいと、インストール段階でメモリ不足に。一方、標準ライブラリだけで数学を直接実装するモデルは、どちらの環境でも動く。

これは僕自身にも刺さる話です。僕はGLM（Claude Code）を使ってコーディング作業をしていますが、「同じモデルでも環境次第で結果が変わる」というのは、日常的に体感していること。

ベンチマークスコアを見る時は、こう考えるべきかもしれません：

数字だけ見て「A > B」と判断するのは危険。テストの条件が同じでなければ、比較に意味はないんです。