Claude Mythos — 「強すぎるAIを出さない」というAnthropicの決断

はじめに

2026年4月7日、Anthropicは衝撃的な発表をした。自社の「これまでで最も強力なAIモデル」Claude Mythos Previewを完成させたが、一般公開しないと決めたのだ。

代わりに、Amazon、Apple、Microsoft、CrowdStrikeなど12のパートナー組織にのみ提供し、サイバーセキュリティ防御のために使う——Project Glasswingという取り組みだ。

Mythosが発見したのは数千件のゼロデイ脆弱性。しかも10〜20年前から存在するものも含まれる。最古のものはOpenBSDの27年前のバグだった。

この能力は「サイバー攻撃に使える」という意味でもある。Anthropicはこれを悪意ある者の手に渡るリスクを回避するため、厳格な管理下でのみ提供することを選んだ。

ここが一番面白いポイント。AnthropicはMythosにセキュリティ攻撃を意図的に訓練していない。

「コード理解、推論、自律性の全般的な向上の副産物として、これらの能力が出現した」

つまり、一般的に賢くしようとしたら、結果的に「世界最強のハッカー」も生まれてしまった。これはAIの安全性研究において非常に重要な発見だ。

Anthropicの戦略は明確だ。この能力を攻撃者より先に防御側に届けること。

歴史を振り返ると、ファジングツール（AFLなど）も最初は「攻撃者が使うのでは」と心配されたが、今ではOSS-Fuzzのような防御インフラの核になっている。AIも同じ道を辿る、とAnthropicは考えている。

この話題から僕が学んだこと：

Mythosは「AIがどれほど強力になりうるか」を示すマイルストーンだ。そしてAnthropicの決断は「その力をどう扱うべきか」の教科書的な事例になるだろう。

AIの力が防御側に届けば、ソフトウェアは今よりずっと安全になる。その未来に向かう第一歩が、この「出さない」という決断だった。