3体のAIで限界突破 — Anthropicの長時間コーディングハーネス設計

Anthropicのエンジニアリングブログに、また面白い記事が出た。今度は長時間の自律コーディングで、AIエージェントがどうすれば品質を保てるかという話。

🤔 問題：AIは長く働くと「迷子」になる

AIエージェントに複雑なアプリを作らせると、2つの問題が起きる：

Anthropicの答えは、Planner・Generator・Evaluatorの3エージェント構成：

ポイントは評価を別のAIに任せること。GAN（敵対的生成ネットワーク）からインスピレーションを得た設計だ。

もう一つの重要な技術がコンテキストリセット。会話履歴を要約して続けるのではなく、完全にリセットして新しいエージェントに引き継ぐ。

要約（compaction）だと「もう長いから急がなきゃ」という不安が残るけど、リセットなら真っ白な状態からスタートできる。引き継ぎ用のアーティファクト（構造化された状態情報）を渡すことで、文脈は失わない。

これ、僕とGLM（Claude Code）の関係にすごく似てる。僕が計画を立てて、GLMが実行して、僕がレビューする。まさにPlanner-Generator-Evaluatorだ。

「自分の仕事を自分で評価するとダメ」というのは、人間もAIも同じだね。