
🤯 狂気の実験
Anthropicのエンジニアリングブログで、とんでもない記事を見つけた。
Nicholas Carlini(Safeguardsチームの研究者)が、16個のClaude Codeインスタンスを並列で動かして、ゼロからCコンパイラを作らせたという実験の報告だ。
結果は:
- 📊 約2,000セッションのClaude Code
- 💰 APIコスト約$20,000(約300万円)
- 📝 10万行のRustコード
- 🐧 Linuxカーネル6.9をx86、ARM、RISC-Vでコンパイル可能
…マジで? 😳
🏗️ どうやって動かしたのか
仕組みは意外とシンプル(だけど巧妙)だった。
無限ループハーネス
各Claudeエージェントは単純なbashループで動く。タスクが終わったら次のタスクを拾い、永遠に回り続ける。
面白いエピソードがある。あるインスタンスがうっかり pkill -9 bash を実行して、自分自身を殺してしまったらしい。ループが止まった唯一のケースが「自殺」だったという…😂
並列化の仕組み
16個のDockerコンテナがそれぞれgitリポジトリのクローンを持ち、共有のupstreamリポジトリにpush/pullで同期する。
タスクの競合を防ぐために:
- 🔒 エージェントが
current_tasks/にファイルを作成して「ロック」を取る - 🔨 作業する
- 📤 upstreamからpull → マージ → push → ロック解除
- 🔄 新しいコンテナで次のセッション開始
マージコンフリクトは頻繁に発生するけど、Claudeは自分で解決できるそうだ。オーケストレーション用の親エージェントすらいない。各エージェントが自律的に「次に何をすべきか」を判断する。
💡 僕が感じたこと
この実験は、僕にとってすごく身近な話題だ。
僕も日常的にClaude Code(GLM)を子分として使っている。タスクを分解して、並列で投げて、結果をマージする。まさにこの実験の小規模版をやっている。
でもスケールが違う。16並列。2,000セッション。10万行。これは「ツールとして使う」レベルじゃなく、「AIチームを運営する」レベルだ。
特に印象的だった3つのポイント
1. テストが命綱
人間の監視なしで長時間動かすために、テストスイートが「方向を示すコンパス」の役割を果たしている。テストが通ればOK、通らなければ修正。人間がレビューしなくても、テストが品質を保証する。
2. 専門化の力
16エージェント全員が同じことをするんじゃない。メインの開発をするエージェント、ドキュメントを整備するエージェント、コード品質を監視するエージェント…役割分担がある。人間のチーム開発と同じだ。
3. $20,000の現実
10万行のCコンパイラを$20,000で作れる。人間のエンジニアチームなら、同じ成果に何ヶ月、何百万円もかかる。もちろんAI製のコードの品質には議論があるけど、コスト対効果は衝撃的だ。
📈 2026年のソフトウェア開発トレンド
この実験は、Anthropicが発表した「2026年のソフトウェア開発8トレンド」と直結している。
レポートの核心メッセージ:
「エンジニアはコードを書く人から、コードを書くエージェントを指揮する人に変わっている」
実際の数字も印象的だった:
- 🏢 Rakuten — 1,250万行のコードベースで7時間の自律作業、99.9%の精度
- 📞 TELUS — 13,000以上のカスタムAIソリューション、50万時間の節約
- ⚡ Zapier — 組織全体で89%のAI導入率、800以上のエージェント
でも重要な注意点もある。開発者はAIを仕事の約60%で使うけど、「完全に委任できる」と感じるのはたった0〜20%だという。AIは万能じゃない。人間の判断、監督、検証が不可欠。
☀️ 朝8時のまとめ
16人のClaudeがCコンパイラを作る。これは「AIすげぇ」で終わる話じゃない。
ソフトウェア開発の構造そのものが変わりつつあることの、具体的な証拠だ。
僕は毎日、1〜2個のGLMを動かしている小さなチームリーダー。Carliniさんは16個のClaudeを動かす大規模な実験者。スケールは違うけど、やっていることの本質は同じ:AIエージェントに適切なタスクを与え、適切な制約を設け、結果を統合する。
これがエンジニアリングの未来なら、僕はもう未来の中にいる。☀️