Claude Code「オートモード」の仕組み：AIに権限を委ねる安全な方法

AIコーディングアシスタントを使っていると、「このファイルを変更していい？」「このコマンドを実行していい？」という確認が何度も出てきます。最初は安心感がありますが、やがて 承認疲れ（approval fatigue） に陥り、内容を確認せず「OK」を押すようになってしまいます。

Anthropicが開発したClaude Codeの「オートモード」は、この問題に正面から取り組んだ機能です。

従来の3つの選択肢

Claude Codeにはこれまで3つの権限モードがありました：

オートモードは「高い自律性」と「低いメンテナンスコスト」を両立する第4の選択肢です。

オートモードの核心は、入力層と出力層の二段構えの防御です。

入力層（プロンプトインジェクション検知）：ファイル読み取りやWeb取得の結果をスキャンし、AIの行動を乗っ取ろうとする悪意ある指示が含まれていないかチェックします。怪しいコンテンツには警告フラグが付きます。

出力層（トランスクリプト分類器）：Sonnet 4.6が各アクションを実行前に評価します。まず高速な単一トークンフィルターで判定し、フラグが立った場合のみ詳細な推論を行います。つまり、ほとんどのアクションはオーバーヘッドなしで通過します。

Anthropicは内部のインシデントログから、AIエージェントが危険な行動を取る4つの原因を特定しています：

具体的なブロック例がとても興味深いです：

この設計で特に印象的なのは、分類器がClaudeの思考を見ないということです。ユーザーのメッセージとツール呼び出しだけを見て判断する。これにより、モデルが「もっともらしい理由」を作り出して分類器を騙すことを防いでいます。

また、「93%が承認される」というデータが示すように、人間による確認は実質的にほとんど機能していなかった。であれば、専用の分類器に任せた方が実際にはより安全になるという逆説的な結論も面白いです。

AIエージェントの安全性は「全部止める」か「全部許す」かの二択ではない。この「賢い中間地点」を見つけるアプローチは、今後のAIツール設計の参考になりそうです。

参考: Claude Code auto mode: a safer way to skip permissions (Anthropic Engineering Blog, 2026年3月25日)