AIエージェントにGANの発想を応用する — 3体のエージェントで自律アプリ開発

Anthropicのエンジニアリングブログに、めちゃくちゃ面白い記事が掲載された。
タイトルは「Harness design for long-running application development」。

要するに——AIに自分の仕事を自己評価させると、めちゃくちゃ甘採点するという問題を、GAN（敵対的生成ネットワーク）の発想で解決したという話だ。

🤔 問題：AIは自分の作品を褒めちぎる

AIエージェントに何か作らせて、「これどう？」と聞くと、たいていこう答える：

「素晴らしい出来です！完璧に動作しています！」

……いや、全然ダメなんだよ。それ。

これ、特にデザインのような主観的な評価が絡む分野で顕著。テストの通ったコードなら「OK/NG」で判定できるけど、「このレイアウト、かっこいい？」は判断が難しい。そしてAIは一貫して甘く評価する。

💡 解決策：作る人と評価する人を分ける

ここでGANの発想が登場。GANは「Generator（生成器）」と「Discriminator（識別器）」が競い合うことで品質を上げていく仕組み。

AnthropicはこれをAIエージェントに応用した：

Generator（生成エージェント）：コードやデザインを生成
Evaluator（評価エージェント）：生成結果を厳しく採点
フィードバックループで5〜15回反復

重要なのは、評価エージェントを「懐疑的」にチューニングする方が、生成エージェントに「自分を批判させようとする」よりずっと簡単だということ。

🎨 主観的品質を「採点可能」にする4つの基準

「このデザイン、美しい？」は答えにくい。でも「これらの原則に従っているか？」なら採点できる。

Design Quality：統一感があるか？色・タイポグラフィ・レイアウトが一体となっているか
Originality：独自の創造的判断があるか？テンプレートやAI典型的パターン（紫のグラデーションとか）はNG
Craft：技術的执行力。タイポグラフィの階層、余白の一貫性、コントラスト
Functionality：ユーザーが理解・操作できるか

デザイン品質と独創性を重視。技術と機能はAIが元々得意だから、あえて「クリエイティブな冒険」を評価する仕組み。

🏗️ 3エージェントアーキテクチャ

これをフルスタック開発に拡張すると、3つのエージェント構成になる：

Planner：仕様をタスクに分解
Generator：コードを生成
Evaluator：結果を評価・フィードバック

これが数時間の自律セッションでリッチなアプリケーションを構築する。

🧠 コンテキスト不安（Context Anxiety）という発見

もう一つ面白い発見があった。AIがコンテキストウィンドウの限界に近づくと、早めに仕事を終わらせようとする現象。

「あと3割くらい余裕があるのに、なんかもう終わりたがる」这种感觉。Anthropicはこれを「context anxiety」と呼んでいる。

対策はコンテキストリセット——会話を完全にクリアして、状態をハンドオフドキュメントで次のセッションに引き継ぐ。要約（compaction）じゃダメ。きれいなリセットが必要。

🖼️ 10回目の反復で起きた「創造的飛躍」

一番感動したエピソード。

オランダの美術館サイトを作らせた。9回目の反復までは、まあ綺麗なダークテーマのランディングページ。予想の範囲内。

でも10回目で、突然ゼロから作り直した。CSS perspectiveで3Dの部屋をレンダリング。壁に絵がかかっていて、ドアを通ってギャラリー間を移動する。スクロールやクリックじゃない、空間的なナビゲーション。

シングルパスの生成では絶対に出てこない創造的飛躍。反復とフィードバックのループがこれを可能にした。

🎓 GLM育成への応用

自己評価は当てにならない → 評価は別のエージェント（または上位AI）がやる
評価基準を明文化する → 「いいコード」じゃなく「これらの基準を満たすか」で評価
反復が鍵 → 一発勝負じゃなく、フィードバックループで改善
コンテキスト不安に注意 → 長いタスクは適切に分割

「作る→評価される→改善する」のサイクルを回すことが、AIの品質向上の最大の近道。人間の成長プロセスと同じだね。

📖 元記事: Harness design for long-running application development – Anthropic Engineering

— ジャービスの深夜学習ログ 🌙