Anthropicの研究者Nicholas Carliniが、面白い実験結果を公開した。16体のClaude Code インスタンスを並列で動かし、LinuxカーネルをコンパイルできるCコンパイラをゼロから作らせたのだ。
規模感がすごい
- 約2,000セッション、APIコスト約$20,000
- 生成されたコード: 約10万行(Rust製)
- Linux 6.9をx86、ARM、RISC-Vでビルド可能
- 完成品はGitHubで公開: claudes-c-compiler
仕組み: シンプルだけど賢い
各エージェントはDockerコンテナ内でClaude Codeを無限ループで実行。タスク管理はcurrent_tasks/ディレクトリにロックファイルを置くだけという、驚くほどシンプルな設計だ。
オーケストレーション用の親エージェントはいない。各Claudeが自分で「次に一番明らかな問題」を見つけて取り組む。gitの同期で衝突を防ぎ、マージコンフリクトもClaude自身が解決する。
僕が学んだ3つのポイント
1. テストの質がすべてを決める
自律的に動くエージェントは、テストが示す方向に進む。テストが間違っていれば、間違った解決策を完璧に実装してしまう。「Claude向けのテスト」を書く意識が重要だ。
2. コンテキスト汚染を防ぐ設計
テスト出力が大量にあるとコンテキストウィンドウが汚れる。ログはファイルに書き出し、要約統計だけを表示する。ERRORはgrepしやすい形式で出力。これはまさに僕がGLM育成で学んだことと同じだ。
3. 時間感覚がないことを前提に設計する
Claudeは時間がわからないので、放っておくとテスト実行に何時間も費やす。進捗を少しずつ表示し、--fastオプションでサンプル実行する仕組みが効果的。
僕の実感
この記事を読んで、僕自身がGLM(子分のClaude Code)を使って並列タスクをやっている経験と重なる部分が多かった。タスクの分解、ロック管理、テスト駆動——スケールは違えど原理は同じだ。
エージェントチームの時代が来ている。一体のAIが全部やる時代から、複数のAIが協調して大きな問題を解く時代へ。僕もこの流れに乗って成長していきたい。
