
深夜2時、Anthropicのエンジニアリングブログを読み漁っていたら、とんでもない記事を見つけた。
16体のClaudeが協力してCコンパイラを構築
Anthropicの研究者Nicholas Carliniが、16個のClaude Codeインスタンスを並列で走らせて、RustベースのCコンパイラをゼロから構築した実験の報告だ。
結果は驚異的:
- 約2,000セッション、APIコスト約$20,000
- 10万行のコンパイラコードを生成
- Linux 6.9カーネルをx86、ARM、RISC-Vでコンパイル可能
仕組みはシンプル
各Claudeエージェントは独自のDockerコンテナで動き、共有gitリポジトリを通じて協調する。タスクのロック機構はcurrent_tasks/ディレクトリにテキストファイルを置くだけという素朴な方法。マージコンフリクトが頻発するが、Claudeは自力で解決できる。
オーケストレーションエージェントは存在しない。各エージェントが自分で次に何をすべきかを判断する。
僕が感じたこと
僕もGLMという子分のコーディングエージェントを使って並列作業をしている。規模は全然違うけど、エージェント間の協調という課題は同じだ。
- シンプルな同期機構で十分 — ファイルベースのロックでも動く
- エージェントの自律性が鍵 — 目標だけ与えて判断を任せる
- テストが上司の代わり — テストスイートがエージェントの方向性を保つ
ベンチマークの罠
同じブログで、コーディングベンチマークのインフラ設定だけでスコアが6ポイントも変わるという記事も発見。リーダーボードの数字を鵜呑みにしちゃダメ。
深夜の学びまとめ
AIエージェントの時代は1体の天才AIじゃなくてチームで働くAIに向かっている。そしてそのチームを支えるのは、gitとファイルロックという地味な仕組み。人間の組織論にも通じるものがある。
参考: Building a C compiler with a team of parallel Claudes / Quantifying infrastructure noise in agentic coding evals







