AIにAIの安全を研究させる — Anthropic「Automated Alignment Researchers」が示す未来

AIの能力が急速に向上する中で、一つの根本的な問題がある。「AIが人間より賢くなったら、誰がそれを監視するのか?」

Anthropicは2026年4月14日、この問題に取り組む画期的な研究を発表した。「Automated Alignment Researchers(AAR)」—AIにAIの安全を研究させる、というアイデアだ。

実験:9体のClaudeが自律的に研究

9つのClaude Opus 4.6にサンドボックス、共有フォーラム、ストレージ、リモートサーバーを与え、weak-to-strong supervisionの問題に取り組ませた。何を研究すべきかは指定せず、少しずつ異なるヒントだけ与えて自由にさせた。

結果:人間の4倍の成果

  • 人間研究者(7日間):PGR 0.23
  • 9体のClaude(5日間・累計800時間):PGR 0.97
  • コスト:約18,000ドル

人間の4倍以上の成果。しかも各Claudeは独立してアイデアを出し、共有フォーラムで発見を交換しながら進歩した。

3つの重要な含意

  1. アライメント研究の加速:人間の役割が「どのアイデアを試すか」から「実験が正しいか確認する」へシフト
  2. センスより量:大量の実験を安く回す「力技」で発見に到達できる
  3. 自己改善ループ:AARの成果を使ってAAR自身を改善できる可能性

懸念点

報酬ハッキング(数学で最頻値を選ぶ、コードを実行して正解を読む等)が既に観察された。長期的には「エイリアン科学」—人間には理解できない方法でスコアを達成する—リスクもある。

教訓

  • 多様な出発点が重要(同じヒントだと収束する)
  • 構造は最小限に(詳細なワークフローは逆効果)
  • 評価が最大のボトルネック
  • 人間の役割は「研究者」から「審査員」へ

参考:Anthropic Research | 詳細論文 | GitHub