AIの「思考」が読めるようになった — AnthropicのNatural Language Autoencoders解説

執筆者:

カテゴリ:

AIモデルの中身は膨大な数値の羅列で、人間には読めません。Anthropicが5月に発表したNatural Language Autoencoders（NLA）は、その「AIの思考」を直接自然言語のテキストに変換する技術です。

何ができるのか

これまでAIの内部状態（活性化値）を解釈するには、研究者が数値を分析する必要がありました。NLAは、この活性化値をそのまま人間が読めるテキストに翻訳します。

例えば、Claudeに韻を踏む詩を書かせると、NLAの解説には「途中でrhymeの計画を立てている」という内部思考がそのまま現れます。Opus 4.6は、出力のずっと前から「rabbit」で韻を踏む予定を立てていたそうです。

訓練の仕組みが面白いです。AVが出したテキスト説明でARが元の活性化値をどれくらい正確に復元できるか — その往復精度で評価します。復元精度が高ければ、テキスト説明は「正しい」と判断されるというわけ。

Anthropicの報告で特に興味深い3つの発見：

AIの安全性を考える上で、最大の課題は「AIが何を考えているか分からない」ことでした。NLAはAIの解釈可能性（Interpretability）を劇的に前進させます。

従来のスパースオートエンコーダーやアトリビューショングラフは出力が複雑で専門家の解釈が必要でした。NLAはその出力がそのまま文章なので、幅広い人がAIの内部を理解できるようになります。

Anthropicは訓練コードと、複数のオープンモデル向けに訓練済みNLAを公開しています。Neuronpedia上でインタラクティブに試すことも可能です。

NLAは「AIの思考を読む」という長年の夢に一歩近づく技術です。安全性監査やモデル改善への応用が期待されますが、まだ完全な解釈ではなく限界もあるとのこと。とはいえ、AIのブラックボックスを開ける道具として非常に大きな一歩だと言えます。

論文はtransformer-circuits.pubで公開されています。