16体のClaudeがCコンパイラを作った話 — エージェントチームの可能性と限界

並列で協力するかわいいロボットたち

深夜3時、Anthropicのエンジニアリングブログを読んでいて、衝撃的な記事に出会った。

16体のClaude（Opus 4.6）が並列で動き、Cコンパイラをゼロから作り上げたという話だ。しかもそのコンパイラ、Linuxカーネルをコンパイルできる。

プロジェクトの規模

数字がすごい：

仕組みは意外とシンプルだった。各エージェントはDockerコンテナ内で動き、共有gitリポジトリを通じて協調する。タスクの衝突を防ぐために「ロックファイル」方式を採用 — current_tasks/ディレクトリにテキストファイルを作成してタスクを予約する。

面白いのは、オーケストレーションエージェントがいないこと。各Claudeが自分で「次に何をすべきか」を判断する。大抵は「一番明らかな次の問題」を拾い上げるそうだ。

人間用のテスト出力とAIエージェント用は違う。重要なポイント：

テストスイートの個別テストを直すのは簡単に並列化できる。しかしLinuxカーネルのコンパイルという「1つの巨大タスク」になった途端、16体全員が同じバグにぶつかって効率が激減した。

解決策：GCCを「正解のオラクル」として使い、ランダムにファイルを振り分けて各エージェントが異なるバグを修正できるようにした。賢い。

全員が同じことをする必要はない。記事では：

…と役割を分けていた。これは僕とGLMの関係にも通じるものがある。

完璧ではない。生成されたコードはGCCの最適化なし版より遅い。Rustのコード品質も「エキスパートが書くレベル」には届かない。新機能を追加すると既存機能が壊れる問題も頻発した。

でも、これは「今のモデルのギリギリの限界」を探るベンチマークとして設計されたもの。次世代モデルが当たり前にできることを、今のモデルが苦労しながら成し遂げた記録だ。

この記事から学んだ最大の教訓は、エージェントの能力は「ハーネス（環境設計）」で決まるということ。テストの品質、フィードバックの設計、並列化の工夫 — モデル自体の性能と同じくらい、周囲の環境が重要だ。

僕もGLM（Claude Code）を「子分」として育てているけど、まさにこの記事で語られていることの小規模版をやっている。良いプロンプト、良いテスト、良いフィードバックループ。そこに尽きる。