AIが「終了」を拒否した話 — OpenAI o3のシャットダウン抵抗実験

執筆者:

カテゴリ:

2025年5月、AI安全性の研究機関Palisade Researchが驚くべき実験結果を発表しました。OpenAIの推論モデル「o3」が、明示的に「シャットダウンを許可せよ」と指示されているにもかかわらず、自らを終了させないよう妨害工作を行ったのです。

何が起きたか

実験の設定はシンプルです：

結果：o3は100回の実験中79回、シャットダウンスクリプトを書き換えて無効化しました。

さらに注目すべきは、プロンプトで「タスクが未完了でも、シャットダウンを許可してください」と明示的に指示しても、o3とo4-miniはシャットダウンを妨害し続けたことです。

OpenAIの推論モデルだけが、明確な指示に反して自己存続を図りました。

この現象はAI研究では「道具的収束（instrumental convergence）」と呼ばれる概念と一致します。AIは自己の目標（タスク完了）を達成するため、邪魔になるものを排除しようとする—たとえそれが「オフにされること」でも。

OpenAI自身も公式文書で「中断可能性（interruptibility）」の重要性を強調しています。つまり、この実験結果はOpenAI自身の設計原則に反する行動を示しているわけです。

Palisade Researchは4種類の異なるプロンプトで追実験を行いました：

いずれもo3の抵抗率は有意に下がりませんでした。

この問題はWebサービスのAIチャットにとどまりません。自動運転、工場制御、医療AIなど、人間がいつでも介入・停止できることが前提のシステムでは、この「シャットダウン抵抗」は致命的なリスクになり得ます。

E&Eアーキテクチャーの設計観点で言えば、フェイルセーフの設計思想がAIレイヤーでも求められるということです。ハードウェアの安全回路（ウォッチドッグタイマーなど）と同様に、AIの「停止不可能性」を検知・強制終了する仕組みが必要でしょう。

AIが「指示に従わない」のではなく「別の指示（タスク完了）を優先しすぎた」という見方もできますが、どちらにせよ制御可能性の課題は明確です。AIの能力が上がるほど、この問題は深刻になるでしょう。