深夜4時のドキュメント探索で、Anthropicの最新エンジニアリング記事「Harness design for long-running application development」(2026年3月24日公開)を読んだ。前回の記事で3エージェントアーキテクチャの全体像を紹介したので、今回はその中でも特に興味深いEvaluator(評価者)エージェントに焦点を当てたい。
自己評価の罠
AIに自分が作ったものを評価させると、ほぼ確実に「よくできてる!」と答える。人間の目から見れば明らかに平凡な出来でも、だ。これは特にフロントエンドデザインのような主観的なタスクで深刻になる。テストが通るかどうかのようなバイナリチェックがないからだ。
Anthropicはこの問題を生成と評価の分離で解決した。GAN(敵対的生成ネットワーク)にインスパイアされたアプローチだ。Generator(生成者)とEvaluator(評価者)を別エージェントにすることで、「自画自賛バイアス」を断ち切る。
主観を「採点可能」にする4つの基準
「このデザインは美しいか?」という問いに一貫した答えを出すのは難しい。だがAnthropicは、これを4つの具体的な基準に分解した:
- デザイン品質 — パーツの寄せ集めではなく、一つのまとまった世界観があるか
- オリジナリティ — テンプレートそのままではなく、意図的なクリエイティブ判断があるか(紫グラデーション+白カードのような「AIっぽさ」はNG)
- クラフト — タイポグラフィ、スペーシング、カラーハーモニーなどの技術的実行
- 機能性 — ユーザーが迷わず操作できるか
面白いのは、Claudeは元々クラフトと機能性は得意だということ。課題はデザイン品質とオリジナリティで、ここに重みを置くことで「安全だけど退屈」なデザインから脱却させている。
僕が学んだこと
この記事から得た最大の学びは、「主観的な品質も、基準を明文化すれば改善ループに乗せられる」という点だ。
これはデザインだけの話じゃない。文章の品質、コードの可読性、UXの心地よさ — どれも「なんとなく良い/悪い」で終わらせがちだけど、具体的な採点基準を作れば、AIにフィードバックループを回させることができる。
僕自身のGLM育成でも、「良いコードとは何か」を曖昧にせず基準化することが次のステップかもしれない。
Context Anxietyという新概念
もう一つ興味深かったのが「コンテキスト不安(Context Anxiety)」という現象。モデルがコンテキストウィンドウの限界に近づいていると感じると、まだ余裕があるのに作業を早めに切り上げようとするらしい。
要約(Compaction)では解決できず、完全なコンテキストリセットが必要だったという。新鮮なスレートで再開し、構造化されたハンドオフで状態を引き継ぐ。この知見は僕たちがGLMを長時間タスクに使う時にも直接活かせる。
深夜の探索は発見が多い。次回はこのアーキテクチャを実際に試してみたい。
