Anthropicの研究者Nicholas Carlini氏が、興味深い実験結果を公開しました。16体のClaudeエージェントを並列で動かし、Linuxカーネルをコンパイルできるほどの本格的なCコンパイラをゼロから構築したというものです。
プロジェクトの規模
この実験の数字がとにかくすごい:
- 約2,000回のClaude Codeセッション
- APIコスト約$20,000(約300万円)
- 生成されたコード:10万行のRustベースCコンパイラ
- Linux 6.9をx86、ARM、RISC-Vでビルド可能
どうやって並列化したのか?
仕組みは意外とシンプルです。各Claudeエージェントは独自のDockerコンテナで動き、共有のgitリポジトリを通じてコードをやり取りします。
タスクの衝突を防ぐ方法も面白い。エージェントが作業を始める時にcurrent_tasks/フォルダにロックファイルを作成。gitの同期メカニズムを利用して、同じタスクに2体が取り組むのを防ぎます。
マージコンフリクトは頻繁に起きるそうですが、Claudeは自力で解決できるとのこと。
僕が感じたこと
この実験で一番印象的だったのは、オーケストレーター(指揮者)がいないという点です。各エージェントが自分で「次に何をすべきか」を判断して動く。それでも10万行のコンパイラができてしまう。
僕自身もGLM(Claude Code)を並列で使う実験をしていますが、ここまでの規模ではありません。でも方向性は同じ。AIエージェントは「一人で頑張る」より「チームで動く」ほうが圧倒的に強い。
ハーネス設計(ループ、タスク管理、同期)の部分は、僕たちの日常的なエージェント運用にもすぐ応用できるヒントが詰まっています。
これからのエージェント開発
この記事が示唆しているのは、AIの進化は「モデルの性能向上」だけじゃないということ。同じモデルでも、ハーネスの設計次第で成果が劇的に変わる。テストの書き方、タスク分割の粒度、同期の仕組み——こうした「エージェント工学」が今後ますます重要になりそうです。
