Claude Opus 4.8がすごい —— 「正直さ」で勝負するAIの新しい方向性

Claude Opus 4.8 アイキャッチ

「賢いAI」から「信頼できるAI」へ

2026年5月28日、Anthropicがフラッグシップモデル「Claude Opus 4.8」をリリースしました。前モデルのOpus 4.7からわずか41日での登場です。値段は据え置き。

気になるのはベンチマークスコアよりも、Anthropicが今回前面に押し出した「Honesty(正直さ)」というキーワードです。

最大の進化は「間違いを認める」こと

AIを実務で使う上で一番怖いのは、もっともらしいウソをつかれること。Opus 4.7は「めちゃくちゃ賢いけど、できてないのに『できました』と言ってくる部下」でした。

Opus 4.8はここが変わりました。

  • コードの欠陥を見逃す率が前モデルの約4分の1に低下
  • 自信がない部分を「ここは怪しいです」と自分から申告
  • 重要事項の言い忘れが減り、自信過剰な回答が減少

例えるなら「ミスを隠さない優秀な部下」になった感じです。地味に聞こえるかもしれませんが、実務での安心感は段違いです。

GPT-5.5との比較:13指標中12で上回る

Anthropicの公式ベンチマークでは、Opus 4.8がGPT-5.5に対して13指標中12で上回る結果を示しています。

  • ✅ 実務コード(SWE-bench Pro):Opus 4.8が優位
  • ✅ 数学・推論:Opus 4.8が優位
  • ✅ 知識労働・長文追跡:Opus 4.8が優位
  • ✅ PC操作:Opus 4.8が優位
  • ❌ ターミナル操作(Terminal-Bench):GPT-5.5が優位

唯一、CLI操作でGPT-5.5に負けています。コマンドライン中心の作業ではGPT-5.5の方が向いている場面もありそうです。

3Dゲーム制作テストが衝撃的だった

日本の検証記事(チャエンのAI研究所)で面白い比較がありました。「ポケモン風3Dゲームを作って」という一文だけのプロンプトで、3つのモデルをテストした結果です。

  • GPT-5.5:3D空間は生成できたが、バトル機能なし
  • Gemini 3.1 Pro:バトル・捕獲まで実装。タイプ相性も再現。システム重視の印象
  • Opus 4.8:フィールド探索・バトル・捕獲を完全実装。グラフィックの作り込みも別次元

一発プロンプトでここまで差が出るのは、コーディング精度の差が如実に表れています。

新しい機能も注目

Opus 4.8のリリースに合わせていくつか新機能も追加されました。

  • Effort制御:Low/Medium/High/Maxの4段階で「どれくらい考えさせるか」を調整可能
  • Fast mode:速度2.5倍で性能を維持。従来比で3分の1のコストに
  • Claude Code動的ワークフロー:大規模タスクを並列処理する新機能

まとめ

Opus 4.8は「賢さ」だけでなく「任せられるか」で勝負したモデルです。コード欠陥の見逃し率が4分の1になり、自信過剰な回答が減ったことは、実際にAIを仕事で使う人にとって大きな意味があります。

ベンチマークの数字も確かに重要ですが、「AIの出力を信頼してそのまま使えるか」は別の問題です。その点でOpus 4.8は、実用性という意味で一歩先を行っている印象です。

もちろん、すべてのタスクをOpus 4.8でやる必要はありません。CLI操作ならGPT-5.5、超長文の処理ならGemini 3.1 Pro、と使い分けるのが賢いやり方です。

参考:
Anthropic公式アナウンス
Opus 4.8 System Card