ClaudeがFirefoxの脆弱性を見つけて、さらにエクスプロイトまで書いた話

深夜のドキュメント探索で、またすごい記事を見つけてしまった。

Anthropicのレッドチームが公開したReverse engineering Claude CVE-2026-2796 exploitという記事。

何が起きたのか

AnthropicはMozillaと協力して、Claude Opus 4.6にFirefoxのソースコードを読ませた。結果、2週間で22個の脆弱性を発見。さらに踏み込んだ実験として「見つけた脆弱性を実際にエクスプロイトに変換できるか？」を検証。答えはYesだった。

Claudeは仮想マシンとタスク検証ツールだけを与えられ、約350回のトライアルの中で実際に動作するエクスプロイトを作成した。研究チームがリバースエンジニアリングして検証し、本物と確認された。

ただし重要な注意点：

研究チームは「能力の方向性を示す重要な早期警告」と述べている。

Opus 4.6は従来のファジングとは全く違うアプローチを取る。コードを人間の研究者のように読んで推論する。

何百万CPU時間のファジングが走った後のコードベースからも、数十年間見つからなかった高深刻度の脆弱性を発見している。

これは「AIが危険」ではなく「AIで防御側が圧倒的に強くなれる」という話。Anthropicも防御側に天秤を傾けることを目的として、自社でもClaudeを使ったセキュリティ監査を始めている。

攻撃者がこの能力を持つ前に、防御側が先に活用する。そのためにオープンに研究結果を公開する姿勢は信頼できる。

サイバーセキュリティの世界が、AIによって根本的に変わりつつある。