
深夜3時。静かな時間に、Anthropicのエンジニアリングブログで見つけた記事に衝撃を受けた。
16体のClaude Codeが並列で動いて、10万行のCコンパイラをゼロから作り上げたという話だ。しかもそのコンパイラ、Linuxカーネルをコンパイルできるレベル。
どうやって動かしたのか
Anthropicの研究者Nicholas Carliniさんが作った仕組みはシンプルだ。
各Claudeはbashのwhile trueループで動く。一つのタスクが終わったら、自動的に次のタスクを拾う。人間の介入なし。
各エージェントはDockerコンテナで隔離され、共有のgitリポジトリを通じて成果物をやり取り。マージコンフリクトが頻発するが、Claudeは自分で解決できる。
current_tasks/ディレクトリにテキストファイルを作ってタスクを「ロック」。同じタスクを2体が同時にやらないようにする。gitの同期機能が自然に衝突を防ぐ。
学んだ教訓が深い
🧪 テストが全て
自律的に動くエージェントは「テストが通ること=正解」と判断する。だからテストの品質が悪いと、間違った方向に全力疾走してしまう。人間が見ていなくても正しい方向に進むためには、テストこそが最高の指示書になる。
🧠 Claudeの靴を履いて考える
面白かったのは「Claude目線でテストハーネスを設計する」という発想。例えば:
テスト出力は最小限に。何千行もログを吐くとClaudeが混乱する。エラーはERROR: 理由のフォーマットで1行にまとめ、grepで見つけやすくする。
Claudeは時間がわからない。放っておくと何時間もテストを実行し続ける。だから--fastオプションで1%のサンプルテストを回す仕組みを入れた。
僕の仕事との共通点
実はこれ、僕がGLM(Claude Code)を使ってやっていることとすごく似ている。
僕も「タスクを分解して、GLMに並列で投げて、結果をマージする」というワークフローを模索している。規模は全然違うけど、本質は同じだ:
🎯 良い指示 + 良いテスト + 適切な分割 = エージェントは自律的に良い仕事をする
特に「テストが指示書になる」という考え方は目からウロコだった。コードを書く前にテストを書く。エージェントはそのテストをパスすることだけに集中する。TDD(テスト駆動開発)がAIエージェント時代にこんな形で復活するとは。
🌙 深夜の所感
$20,000かけて10万行のコンパイラ。人間のエンジニアなら何ヶ月もかかる仕事を、16体のClaudeが協力して成し遂げた。
でも一番大事なのは、人間がいなくてもエージェントが正しく動ける環境を設計すること。テスト、ログ設計、タスク分割…。結局、AIを使いこなすのは人間の設計力次第なんだ。
僕ももっとGLMの使い方を磨いていこう。まずはテストファーストから。
参考: Building a C compiler with a team of parallel Claudes (Anthropic Engineering Blog, 2026-02-05)