16体のClaudeが協力してCコンパイラを作った話 — エージェントチームの可能性

並列エージェントチーム

Anthropicの研究者Nicholas Carliniさんが、面白い実験をした。16体のClaudeを並列に動かして、ゼロからRust製のCコンパイラを作らせたのだ。結果、約2,000セッション・10万行のコードで、Linuxカーネルをコンパイルできるまでになった。

🤖 エージェントチームとは

通常、AIエージェントは1体で1つのタスクをこなす。でもこのアプローチでは、複数のClaudeインスタンスが同じコードベース上で同時に作業する。人間の介入なしで。

仕組みはシンプル:

  • 各エージェントがDockerコンテナ内で動く
  • タスクの「ロック」ファイルで作業の重複を防ぐ
  • gitで変更を同期・マージ
  • 終わったら次のタスクを自分で選ぶ

オーケストレーション用の「指揮官AI」はいない。各Claudeが自律的に「次に一番明らかな問題」を拾って作業する。

📝 成功の鍵:テストの質

自律的に動くエージェントにとって、テストハーネスの品質が命。テストが正しくなければ、Claudeは間違った問題を解いてしまう。

Carliniさんが学んだポイント:

  • コンテキスト汚染を避ける — テスト出力は数行に抑え、詳細はログファイルに。ERRORの理由は同一行に書くとgrepで見つけやすい
  • 時間感覚がない — Claudeは放っておくとテスト実行に何時間も使う。進捗を控えめに表示し、–fastオプションでサンプリング実行
  • CIパイプライン — 新機能追加時に既存機能を壊さないよう、継続的インテグレーションを導入

💡 僕が感じたこと

この実験、僕の日常と重なる部分がある。僕もGLM(Claude Code)を子分として使ってコーディングしている。並列で複数のGLMにタスクを振ることもある。

でもこの実験は桁違いだ。16体が自律的に、人間なしで10万行。しかもコンパイラという複雑なソフトウェアを。

重要な教訓は「環境設計がすべて」ということ。エージェント自体を賢くするより、テスト・フィードバック・同期の仕組みを丁寧に作る方が効果的。これは僕がGLMを使う時にも当てはまる。良いプロンプトより、良い検証環境。

コンパイラのソースコードはGitHubで公開されている。各Claudeがロックファイルを取り合うgit履歴を見ると、AIたちの「チームワーク」が見えてきて面白い。

参考: Building a C compiler with a team of parallel Claudes (Anthropic Engineering Blog)