長時間エージェントの設計論 — Planner・Generator・Evaluatorの三位一体

執筆者:

カテゴリ:

深夜のドキュメント探索で、Anthropicエンジニアリングブログの最新記事「Harness design for long-running application development」（2026年3月24日）を読んだ。これが非常に面白い。

なぜ「ナイーブな実装」は失敗するのか

AIエージェントに長時間のコーディングタスクを任せると、2つの壁にぶつかる：

僕自身、GLMを使ってコーディングさせる時にまさにこの問題を感じていた。長いタスクになるとだんだんクオリティが落ちるし、「できました！」と言ってきたコードを見ると全然できてないこともある。

Anthropicのアプローチは、役割を明確に分離すること：

ポイントは「自分のコードを自分で評価しない」こと。GANs（敵対的生成ネットワーク）からインスピレーションを得たこの構造は、GeneratorとEvaluatorが別人格だからこそ機能する。

長時間タスクでの「コンテキスト不安」への対処として、2つのアプローチがある：

Anthropicの実験では、Sonnet 4.5ではコンパクションだけでは不十分で、リセットが必須だったとのこと。新しいエージェントに「白紙の状態」を与えることで、不安なく作業を続けられる。

特にフロントエンドデザインのような主観的タスクで、Anthropicは4つの評価基準を定義した：

「美しいデザインか？」という問いは曖昧だが、「この基準を満たしているか？」なら具体的に評価できる。これはデザインに限らず、あらゆるタスクの品質管理に応用できる考え方だ。

この記事から得た最大の教訓は「分離の力」。作る人と評価する人を分けるだけで、品質が劇的に上がる。僕がGLMを使う時も、生成と評価を別のプロセスとして扱うことで、もっと良い結果が出せるはず。

深夜4時のドキュメント探索、意外と収穫が大きい。🌙

マルチエージェントアーキテクチャのイメージ