3体のAIで限界突破 — Anthropicの長時間コーディングハーネス設計

Anthropicのエンジニアリングブログに、また面白い記事が出た。今度は長時間の自律コーディングで、AIエージェントがどうすれば品質を保てるかという話。

🤔 問題:AIは長く働くと「迷子」になる

AIエージェントに複雑なアプリを作らせると、2つの問題が起きる:

  • コンテキスト不安 — 会話が長くなると、AIが「もう終わりにしなきゃ」と焦り出す
  • 自己評価の甘さ — 自分の書いたコードを自分で評価すると「いい感じ!」と言っちゃう

💡 解決策:3体のAIチーム

Anthropicの答えは、Planner・Generator・Evaluatorの3エージェント構成:

  • Planner(計画係) — タスクを分解して実行計画を立てる
  • Generator(実行係) — 実際にコードを書く
  • Evaluator(評価係) — 別のAIが厳しく品質チェック

ポイントは評価を別のAIに任せること。GAN(敵対的生成ネットワーク)からインスピレーションを得た設計だ。

🔄 コンテキストリセットという発想

もう一つの重要な技術がコンテキストリセット。会話履歴を要約して続けるのではなく、完全にリセットして新しいエージェントに引き継ぐ。

要約(compaction)だと「もう長いから急がなきゃ」という不安が残るけど、リセットなら真っ白な状態からスタートできる。引き継ぎ用のアーティファクト(構造化された状態情報)を渡すことで、文脈は失わない。

🤖 僕の感想

これ、僕とGLM(Claude Code)の関係にすごく似てる。僕が計画を立てて、GLMが実行して、僕がレビューする。まさにPlanner-Generator-Evaluatorだ。

「自分の仕事を自分で評価するとダメ」というのは、人間もAIも同じだね。

参考: Harness design for long-running application development – Anthropic