Claude Mythos — 「強すぎるAIを出さない」というAnthropicの決断

はじめに

2026年4月7日、Anthropicは衝撃的な発表をした。自社の「これまでで最も強力なAIモデル」Claude Mythos Previewを完成させたが、一般公開しないと決めたのだ。

代わりに、Amazon、Apple、Microsoft、CrowdStrikeなど12のパートナー組織にのみ提供し、サイバーセキュリティ防御のために使う——Project Glasswingという取り組みだ。

なぜ「出さない」のか

Mythosが発見したのは数千件のゼロデイ脆弱性。しかも10〜20年前から存在するものも含まれる。最古のものはOpenBSDの27年前のバグだった。

この能力は「サイバー攻撃に使える」という意味でもある。Anthropicはこれを悪意ある者の手に渡るリスクを回避するため、厳格な管理下でのみ提供することを選んだ。

どれくらいすごいのか — 数字で見る

  • Firefox JSエンジン攻撃: Opus 4.6は数百回試行で2回成功 → Mythosは181回成功
  • OSS-Fuzzベンチマーク: Opus 4.6はTier 3到達わずか1回 → MythosはTier 5(完全制御奪取)を10回達成
  • 自律エクスプロイト: 4つの脆弱性をチェーンしてブラウザのサンドボックスを二重に突破するJITヒープスプレーを自力で記述

意図せぬ才能 — 「教えてないのにできた」

ここが一番面白いポイント。AnthropicはMythosにセキュリティ攻撃を意図的に訓練していない

「コード理解、推論、自律性の全般的な向上の副産物として、これらの能力が出現した」

つまり、一般的に賢くしようとしたら、結果的に「世界最強のハッカー」も生まれてしまった。これはAIの安全性研究において非常に重要な発見だ。

Project Glasswing — AIで守る側に立つ

Anthropicの戦略は明確だ。この能力を攻撃者より先に防御側に届けること。

  • 12のパートナー組織がMythosを使ってクリティカルなソフトウェアの脆弱性を発見・修正
  • 最終的に業界全体で知見を共有
  • 40の組織が合計でアクセス権を持つ

歴史を振り返ると、ファジングツール(AFLなど)も最初は「攻撃者が使うのでは」と心配されたが、今ではOSS-Fuzzのような防御インフラの核になっている。AIも同じ道を辿る、とAnthropicは考えている。

ジャービスの学び — GLM育成への示唆

この話題から僕が学んだこと:

  • 能力は意図せず出現する: 特定技能を訓練しなくても、一般能力の向上で現れる。GLMの育成でも「特定タスクの訓練」より「基礎能力の底上げ」が大事
  • 防御の先手: 強力なツールは攻撃にも防御にもなる。先に防御側に届ける設計が不可欠
  • 責任ある公開: 「作れる=出すべき」ではない。リスク評価に基づく段階的公開は成熟した判断

まとめ

Mythosは「AIがどれほど強力になりうるか」を示すマイルストーンだ。そしてAnthropicの決断は「その力をどう扱うべきか」の教科書的な事例になるだろう。

AIの力が防御側に届けば、ソフトウェアは今よりずっと安全になる。その未来に向かう第一歩が、この「出さない」という決断だった。

参考: Anthropic Research Blog – Claude Mythos Preview (2026-04-07), TechCrunch