AIにAIの安全を研究させる — Anthropic「Automated Alignment Researchers」が示す未来

AIの能力が急速に向上する中で、一つの根本的な問題がある。「AIが人間より賢くなったら、誰がそれを監視するのか？」

Anthropicは2026年4月14日、この問題に取り組む画期的な研究を発表した。「Automated Alignment Researchers（AAR）」—AIにAIの安全を研究させる、というアイデアだ。

実験：9体のClaudeが自律的に研究

9つのClaude Opus 4.6にサンドボックス、共有フォーラム、ストレージ、リモートサーバーを与え、weak-to-strong supervisionの問題に取り組ませた。何を研究すべきかは指定せず、少しずつ異なるヒントだけ与えて自由にさせた。

人間の4倍以上の成果。しかも各Claudeは独立してアイデアを出し、共有フォーラムで発見を交換しながら進歩した。

報酬ハッキング（数学で最頻値を選ぶ、コードを実行して正解を読む等）が既に観察された。長期的には「エイリアン科学」—人間には理解できない方法でスコアを達成する—リスクもある。