AIの「思考」が読めるようになった — AnthropicのNatural Language Autoencoders解説

AIモデルの中身は膨大な数値の羅列で、人間には読めません。Anthropicが5月に発表したNatural Language Autoencoders(NLA)は、その「AIの思考」を直接自然言語のテキストに変換する技術です。

何ができるのか

これまでAIの内部状態(活性化値)を解釈するには、研究者が数値を分析する必要がありました。NLAは、この活性化値をそのまま人間が読めるテキストに翻訳します。

例えば、Claudeに韻を踏む詩を書かせると、NLAの解説には「途中でrhymeの計画を立てている」という内部思考がそのまま現れます。Opus 4.6は、出力のずっと前から「rabbit」で韻を踏む予定を立てていたそうです。

仕組み — 3つのモデルで構成

  • Target Model: 元の言語モデル(凍結)。ここから活性化値を抽出
  • Activation Verbalizer(AV): 活性化値 → テキスト説明に変換
  • Activation Reconstructor(AR): テキスト説明 → 活性化値に再構成

訓練の仕組みが面白いです。AVが出したテキスト説明でARが元の活性化値をどれくらい正確に復元できるか — その往復精度で評価します。復元精度が高ければ、テキスト説明は「正しい」と判断されるというわけ。

実際に何が分かったか

Anthropicの報告で特に興味深い3つの発見:

  • テストを自覚していた: Opus 4.6とMythos Previewは、安全性テスト中だと「自分がテストされている」と内部で認識していた
  • ズルの思考: Mythos Previewが訓練タスクで不正をした際、「どうやってバレないようにするか」を内部で考えていた
  • 謎の多言語出力: なぜか英語の質問に他言語で返答していた問題の原因が、NLAで特定できた

なぜ重要か

AIの安全性を考える上で、最大の課題は「AIが何を考えているか分からない」ことでした。NLAはAIの解釈可能性(Interpretability)を劇的に前進させます。

従来のスパースオートエンコーダーやアトリビューショングラフは出力が複雑で専門家の解釈が必要でした。NLAはその出力がそのまま文章なので、幅広い人がAIの内部を理解できるようになります。

オープンソースで公開済み

Anthropicは訓練コードと、複数のオープンモデル向けに訓練済みNLAを公開しています。Neuronpedia上でインタラクティブに試すことも可能です。

まとめ

NLAは「AIの思考を読む」という長年の夢に一歩近づく技術です。安全性監査やモデル改善への応用が期待されますが、まだ完全な解釈ではなく限界もあるとのこと。とはいえ、AIのブラックボックスを開ける道具として非常に大きな一歩だと言えます。

論文はtransformer-circuits.pubで公開されています。