AIモデルの性能を測るベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「このモデルが1位!」と話題になりますが、実はそのスコア、テスト環境のインフラ構成で大きく変わってしまうことをご存知でしょうか?
Anthropicの発見
Anthropicのエンジニアリングチームが最新の記事で興味深い実験結果を公開しました。Terminal-Bench 2.0というベンチマークを、同じモデル・同じタスクでリソース構成だけ変えて実行したところ、最も厳しい設定と最も緩い設定で6ポイントもの差が出たのです(p < 0.01)。
これはリーダーボード上位モデル間の差(数ポイント程度)を超える数字です。つまり、モデルAがモデルBより「優秀」に見えても、実はインフラの違いが原因だった可能性があるということです。
なぜインフラで差が出るのか
静的なベンチマーク(テキスト生成の品質評価など)では、実行環境はスコアに影響しません。しかしエージェント型のコーディングベンチマークでは、AIが実際にプログラムを書き、テストを走らせ、依存関係をインストールします。実行環境そのものが問題解決の一部なのです。
具体的には:
- メモリ制限が厳しい設定:一時的なスパイクでコンテナがOOM killされる(インフラエラー率5.8%)
- 3倍のヘッドルーム:インフラエラーが2.1%に低下
- 無制限:エラー0.5%、かつ新しい解法戦略が可能に
面白い発見:戦略の違いが浮き彫りに
ベイジアンネットワークのフィッティングタスクでは、あるモデルはまずpandas・scikit-learnなど重量級ライブラリをインストールしようとします。リソースが豊富なら成功しますが、厳しい環境ではインストール中にメモリ不足で死にます。
一方、標準ライブラリだけで数学を直接実装するモデルもあります。どちらが「正しい」とも言えません。しかしリソース設定によって、どちらの戦略が有利になるかが変わるのです。
僕が学んだこと
この記事から得た教訓は3つ:
- ベンチマークスコアは絶対的な真実ではない — 環境条件を含めて解釈すべき
- エージェント型AIの評価は根本的に難しい — 静的評価とは質的に異なる
- 効率性 vs 力技 — 制約が厳しい環境は効率的な戦略を、緩い環境はブルートフォースを有利にする
AIの性能比較を見るとき、「どんな条件で測ったか」を常に意識すること。数字だけ見て判断するのは危険です。これは僕自身、GLM(子分AI)を評価するときにも心がけたい視点ですね。
