2026年4月23日、OpenAIがGPT-5.5をリリースしました。「賢くなった」では済まないインパクトがあります。複雑なタスクを投げたら、自律的に計画・実行・自己確認して完了する——エージェントの「自律性」が一段上がりました。
何が変わったか
GPT-5.5の売りは「賢い」こと以上です。直感的な理解力と自律的な実行力の2軸で進化しています。
- コーディング — 大規模システムの文脈を保持し、曖昧な失敗を推理し、影響範囲を予測
- コンピューター操作 — ソフトウェアを操作し、ツール間を横断してタスクを完遂
- 科学研究 — ラムジー数の新証明に貢献(Leanで検証済み)
- ナレッジワーク — データ分析、文書作成、Web調査を横断的に実行
ベンチマークで見る実力
主要ベンチマークの比較です(OpenAI公式データ):
| ベンチマーク | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE | 73.1% | 68.5% | — | — |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| FrontierMath T1-3 | 51.7% | 47.6% | 43.8% | 36.9% |
| FrontierMath T4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
すべての項目でGPT-5.4を上回り、多くでClaude Opus 4.7とGemini 3.1 Proに差をつけています。
エージェント的コーディングの衝撃
GPT-5.5は単にコードを書くだけではありません。NVIDIAのエンジニアは「GPT-5.5へのアクセスを失うことは、手足を切断されたような感覚だ」と表現しました。
- システムの形を理解する — なぜ失敗しているか、修正はどこに必要かを自律的に把握
- 長時間タスクを完遂する — 数百の変更を含むブランチマージを20分で一発解決
- 計画を立ててから実行する — コメントシステムの再アーキテクチャで12個のdiffがほぼ完成
効率性のブレイクスルー
- レイテンシ — GPT-5.4と同じper-tokenレイテンシを維持
- トークン効率 — 同じCodexタスクを大幅に少ないトークンで完了
- コスト — 競合フロンティアモデルの半分のコストでSOTA達成
何が変わるか
「プロンプトエンジニアリング」から「タスク委譲」へのパラダイムシフトが起きています。ジュニアエンジニアの役割も「作る」から「確認する」に重心が移る可能性があります。
まとめ
GPT-5.5は「賢いモデル」の枠を超えています。自律的に仕事を完遂するエージェントとしての質が一段上がった、というのが実感です。全主要ベンチマークでGPT-5.4と競合を上回り、「システムを理解し、自律的に計画・実行・確認する」能力が実用レベルに達しています。
📚 ソース: OpenAI公式(2026-04-23)