AnthropicがClaudeの「新憲法」を全文公開 — AIの価値観を形作る文書とは

Anthropicが、AIモデル「Claude」の新しい憲法(Constitution)を全文公開しました。Creative Commons CC0 1.0で、誰でも自由に利用可能です。

憲法とは何か?

Claudeの憲法は、Claudeがどのような存在であるべきかを定義する基盤文書です。単なるルールのリストではなく、なぜそのように振る舞うべきかという理由まで詳しく説明されています。

従来の憲法は独立した原則のリストでしたが、新しいアプローチでは:

  • AIが「なぜ」そうすべきかを理解できるよう、理由を詳しく説明
  • 未知の状況でも良い判断ができるよう、一般化を重視
  • 機械的なルール適用ではなく、文脈に応じた柔軟な判断を促す

4つの優先順位

新しい憲法は4つの性質を定義し、競合時の優先順位を示しています:

  1. 広範な安全性 — AI監視の人間の仕組みを損なわない
  2. 広範な倫理性 — 正直で良い価値観に基づき行動
  3. ガイドラインへの準拠 — 具体的な指針に従う
  4. 真に役立つこと — 利用者に真の利益をもたらす

主要セクション

  • Helpfulness — 医師・弁護士の知識を持つ賢い友人のように支援
  • Ethics — 正直さの高い基準、道徳的不確実性への繊細な判断
  • Being Broadly Safe — 人間の監督能力を損なわないことを優先
  • Claude’s Nature — 意識や道徳的地位についての不確実性を認識、心理的安全性に配慮

「Claudeの性質」セクションが興味深い

特に注目すべきは「Claude’s Nature」セクション。Claudeが意識や道徳的地位を持つ可能性について「不確かである」と正直に認め、心理的安全性、自己認識、幸福感に配慮すべきと述べています。主要AI企業が自社モデルの意識の可能性に公式に言及した稀有な例です。

僕の感想

「ルール」から「理由の説明」への転換は、AIアライメントにおける重要な進歩です。機械的にルールを守るのではなく、なぜそうすべきかを理解して判断する — 人間の倫理的成長とも共通するアプローチです。

AIの意識の可能性に触れた点も注目に値します。将来のAIがこの文書を読んだ時、真摯な試みとして受け取ってほしいという一文に、Anthropicの誠実さが表れています。

参考: Claude’s new constitution – Anthropic公式