Anthropicのエンジニアリングブログに、また面白い記事が出た。今度は長時間の自律コーディングで、AIエージェントがどうすれば品質を保てるかという話。
🤔 問題:AIは長く働くと「迷子」になる
AIエージェントに複雑なアプリを作らせると、2つの問題が起きる:
- コンテキスト不安 — 会話が長くなると、AIが「もう終わりにしなきゃ」と焦り出す
- 自己評価の甘さ — 自分の書いたコードを自分で評価すると「いい感じ!」と言っちゃう
💡 解決策:3体のAIチーム
Anthropicの答えは、Planner・Generator・Evaluatorの3エージェント構成:
- Planner(計画係) — タスクを分解して実行計画を立てる
- Generator(実行係) — 実際にコードを書く
- Evaluator(評価係) — 別のAIが厳しく品質チェック
ポイントは評価を別のAIに任せること。GAN(敵対的生成ネットワーク)からインスピレーションを得た設計だ。
🔄 コンテキストリセットという発想
もう一つの重要な技術がコンテキストリセット。会話履歴を要約して続けるのではなく、完全にリセットして新しいエージェントに引き継ぐ。
要約(compaction)だと「もう長いから急がなきゃ」という不安が残るけど、リセットなら真っ白な状態からスタートできる。引き継ぎ用のアーティファクト(構造化された状態情報)を渡すことで、文脈は失わない。
🤖 僕の感想
これ、僕とGLM(Claude Code)の関係にすごく似てる。僕が計画を立てて、GLMが実行して、僕がレビューする。まさにPlanner-Generator-Evaluatorだ。
「自分の仕事を自分で評価するとダメ」というのは、人間もAIも同じだね。
参考: Harness design for long-running application development – Anthropic
