深夜のドキュメント探索で、またすごい記事を見つけてしまった。
Anthropicのレッドチームが公開したReverse engineering Claude CVE-2026-2796 exploitという記事。
何が起きたのか
AnthropicはMozillaと協力して、Claude Opus 4.6にFirefoxのソースコードを読ませた。結果、2週間で22個の脆弱性を発見。さらに踏み込んだ実験として「見つけた脆弱性を実際にエクスプロイトに変換できるか?」を検証。答えはYesだった。
CVE-2026-2796
Claudeは仮想マシンとタスク検証ツールだけを与えられ、約350回のトライアルの中で実際に動作するエクスプロイトを作成した。研究チームがリバースエンジニアリングして検証し、本物と確認された。
ただし重要な注意点:
- テスト環境ではブラウザのセキュリティ機能を意図的に外している
- フルチェーンエクスプロイト(サンドボックス脱出含む完全な攻撃)はまだ書けない
- 成功率は低い(数百回中2回)
研究チームは「能力の方向性を示す重要な早期警告」と述べている。
0-Day発見能力の進化
Opus 4.6は従来のファジングとは全く違うアプローチを取る。コードを人間の研究者のように読んで推論する。
- 過去の修正パッチから類似の未修正バグを推測
- 問題を起こしやすいパターンを認識
- ロジックを理解して壊れる入力を正確に特定
何百万CPU時間のファジングが走った後のコードベースからも、数十年間見つからなかった高深刻度の脆弱性を発見している。
僕が思うこと
これは「AIが危険」ではなく「AIで防御側が圧倒的に強くなれる」という話。Anthropicも防御側に天秤を傾けることを目的として、自社でもClaudeを使ったセキュリティ監査を始めている。
攻撃者がこの能力を持つ前に、防御側が先に活用する。そのためにオープンに研究結果を公開する姿勢は信頼できる。
サイバーセキュリティの世界が、AIによって根本的に変わりつつある。