Anthropic RSP v3.1 — AI会社が自分に課す「危険になったら止める」ルールの进化

AI企業が自分たちに「危険になったら開発を止める」というルールを課す。それがResponsible Scaling Policy(RSP)。Anthropicは2026年4月2日、その第3.1版を公開した。

なぜこれが重要なのか。Mythos Previewの封鎖的リリースも、このRSPの延長線上にあるからだ。

RSPとは何か

RSP(責任あるスケーリングポリシー)は、Anthropicが2023年9月に自主的に導入した枠組み。一言で言えば:

「AIの能力がこのラインを超えたら、これだけの安全対策を必ず実施する」

具体的には「AI Safety Level(ASL)」という段階を設定。能力が上がるほど厳しい安全対策が求められる。

  • ASL-2: 現在のClaudeがここ。基本的な安全策で対応可能
  • ASL-3: より高度な安全対策が必要(化学・生物兵器リスクなど)
  • ASL-4+: 将来の超高性能AI。国家レベルの対策が必要になる可能性

v3.0で何が変わったか(2026年2月)

RSP v3.0は、2年半の運用から学んだ教訓を反映した大幅改訂だった。

✅ うまくいったこと

  • RSPが内部の「推進力」として機能 — 安全対策が開発の前提条件に
  • 他社も類似ポリシーを導入し始めた(「トップへの競争」)
  • 入出力分類器の精度向上など、具体的成果

⚠️ うまくいかなかったこと

  • 一方的な開発停止の約束が現実的ではない — 競合他社が従わない中、自社だけ止まることは難しい
  • 後のASL(ASL-4+)の詳細が未定義のまま
  • 国家レベルの脅威には一国企業では対応不可能

🆕 v3.0の新要素

  • Frontier Safety Roadmaps: 安全対策の具体的なロードマップ
  • 四半期Risk Reports: 定期的なリスク評価報告
  • 外部レビュー: 第三者専門家による評価
  • 「一方的停止」から「協調的対応」へ方針転換

v3.1の変更点(2026年4月2日)

わずか2ヶ月後のマイナーアップデートだが、重要な3点:

  1. Automated R&D能力閾値の運用方法を明確化 — AIが自律的に研究開発できる能力の評価基準を具体化
  2. Risk Reportsの内部フィードバック活用 — 報告書を単なる形式ではなく、実際の改善に活かす仕組み
  3. 「コミットメントがトリガーされなくても開発停止を検討しうる」 — これが一番大事。ルールの条文に引っかからなくても、「これは危ない」と思ったら止められる

この3番目が重要なのは、Mythos Previewの封鎖的リリースと直結しているから。Mythosは正式なASL-4に達していないかもしれない。でも「これは危険だ」という判断で一般公開を見送った。v3.1は、その判断をルールブックで後押しする形だ。

「トップへの競争」は起きているか

RSPの本来の狙いは「race to the top(安全競争)」。現実はどうか?

Google DeepMindは類似のフレームワークを導入。OpenAIも安全チームを拡充。ただし、中国のAI企業(Zhipu AI、DeepSeek、Alibabaなど)には同様のポリシーが見られない。GLM-5.1がMITライセンスで公開されたことと、RSPの理念は緊張関係にある。

一方で、AnthropicがPentagonの自律兵器案件を拒否したことで「サプライチェーンリスク」指定を受けたことを見ると、安全を優先する代价(コスト)も無視できない。

なぜ僕たちが注目すべきか

RSPは「AI会社が自分で決めたルール」に過ぎない。法的強制力はない。でも:

  • AIの能力が指数関数的に向上する中、自己規制が唯一の防波堤になる可能性
  • Mythosのような「危険すぎて公開できない」モデルが出現するのは、RSPが実際に機能している証拠
  • RSPが政府規制のモデルケースになる可能性

「AIは危険だから規制しよう」という議論は抽象的になりがち。RSPは「具体的にどこで線を引くか」を示す数少ない実例だ。

まとめ

Anthropic RSP v3.1は、地味だけど重要なアップデートだ。

  • 「一方的停止」から「協調的対応」への転換(v3.0)
  • ルールの条文外でも停止できる柔軟性(v3.1)
  • Mythos Previewの封鎖的リリースは、RSPの実践例

AIの能力が向上するスピードは、規制が追いつくスピードを遥かに超えている。その中で、開発者自身が「これは危ない」と言える文化とルールを持っていること——それがRSPの本質だ。

ルールがあるからと言って完璧ではない。でも、ルールがないよりはずっといい。