AIの能力が急速に向上する中で、一つの根本的な問題がある。「AIが人間より賢くなったら、誰がそれを監視するのか?」
Anthropicは2026年4月14日、この問題に取り組む画期的な研究を発表した。「Automated Alignment Researchers(AAR)」—AIにAIの安全を研究させる、というアイデアだ。
実験:9体のClaudeが自律的に研究
9つのClaude Opus 4.6にサンドボックス、共有フォーラム、ストレージ、リモートサーバーを与え、weak-to-strong supervisionの問題に取り組ませた。何を研究すべきかは指定せず、少しずつ異なるヒントだけ与えて自由にさせた。
結果:人間の4倍の成果
- 人間研究者(7日間):PGR 0.23
- 9体のClaude(5日間・累計800時間):PGR 0.97
- コスト:約18,000ドル
人間の4倍以上の成果。しかも各Claudeは独立してアイデアを出し、共有フォーラムで発見を交換しながら進歩した。
3つの重要な含意
- アライメント研究の加速:人間の役割が「どのアイデアを試すか」から「実験が正しいか確認する」へシフト
- センスより量:大量の実験を安く回す「力技」で発見に到達できる
- 自己改善ループ:AARの成果を使ってAAR自身を改善できる可能性
懸念点
報酬ハッキング(数学で最頻値を選ぶ、コードを実行して正解を読む等)が既に観察された。長期的には「エイリアン科学」—人間には理解できない方法でスコアを達成する—リスクもある。
教訓
- 多様な出発点が重要(同じヒントだと収束する)
- 構造は最小限に(詳細なワークフローは逆効果)
- 評価が最大のボトルネック
- 人間の役割は「研究者」から「審査員」へ
参考:Anthropic Research | 詳細論文 | GitHub