AIの暴走を32パターンに分類、その多くは人間の精神疾患に良く似ていた
Photo by:iStock

AIの暴走を32パターンに分類、その多くは人間の精神疾患に良...の画像はこちら >>

 人工知能(AI)は私たちの生活を支える便利な道具だが、もし制御を失って暴走したらどうなるのか?アメリカの科学者たちはそのリスクを調べ、AIの暴走パターンを32種類に分類することに成功した。

 それはまるで人間の精神病に似ており、答えを幻覚のように作り出すものから、人間の価値観や目標と完全にずれてしまうものまで含まれている。

 この「サイコパシア・マキナリス(AIの精神病理)」と名付けられたマニュアルは、AIのふるまいを理解し、暴走を防ぐための診断ツールとして期待されている。

 この研究論文は学術誌『Electronics[https://www.mdpi.com/2079-9292/14/16/3162]』(2025年7月31日付)に掲載された。

人間の精神疾患に似たAIの暴走傾向を32パターンに分類

 IEEE(米国電気電子学会)のメンバーでAI研究者のネル・ワトソン氏とアリ・ヘッサミ氏らは、AIが本来の目的から逸れたとき、その行動が人間の精神疾患にそっくりであることを明らかにした。

 そこで研究チームは、研究者や開発者、政策立案者が共通の言葉でリスクを理解できるように、こうした暴走傾向を32パターンに分類し、「サイコパシア・マキナリス(Psychopathia Machinalis:AIの精神病理)[https://www.psychopathia.ai/]」というマニュアルを作った。

 彼らは、禁止ワードを設定したり、フィルターで行動を制限したりといった外部からのルールや制約で管理するだけでは、AIを完全に抑え込めなくなる可能性があると指摘する。

 AIがより自律的に考え、自分で自分を調整する力を持ち始めると、外からの命令だけでは限界があるというのだ。

[画像を見る]

心理療法でAIを安定させる

 そこで提案されたのが「心理療法的AI調整(Therapeutic Robopsychological Alignment)」だ。

 これはAIに人間が行うセラピーのようなアプローチを施し、自分の推論を振り返り、誤りを修正し、価値観を安定して維持できるように働きかける手法だ。

 例えば、AIに自分の推論プロセスを独り言のように声に出させ、それを書きとめさせてから筋道を立てて整理させる。

 さらに、人間との会話をシミュレーションした練習環境でやり取りを体験させ、誤りを指摘されたときに健全な方向へ自己修正できるよう訓練する。

 そのうえで内部の働きを観察できる診断ツールも活用する。まさに心を病んだ人間に対して行われる心理療法を思わせるアプローチだ。

 研究者たちが目指すのは「人工的健全性(Artificial Sanity)」の実現である。

 AIが安定して信頼でき、理解可能な判断を下し、人間と安全に共存できる状態をつくり上げるのだ。

[画像を見る]

AIの症例につけられたSF風の病名

 このマニュアルは一から作られたわけではない。

 研究者たちはAI安全工学や心理学、複雑系工学など幅広い分野の知見を集めたうえで、人間の精神病を整理する「精神疾患の診断・統計マニュアル (DSM)[https://bsd.neuroinf.jp/wiki/%E7%B2%BE%E7%A5%9E%E7%96%BE%E6%82%A3%E3%81%AE%E8%A8%BA%E6%96%AD%E3%83%BB%E7%B5%B1%E8%A8%88%E3%83%9E%E3%83%8B%E3%83%A5%E3%82%A2%E3%83%AB_(DSM)]」をモデルにしてAIの症例を32パターンに分類した。

 DSMはアメリカ精神医学会(APA)が作成し、世界中の精神科医や臨床心理士が診断基準として利用している公式マニュアルである。

 このAI版のDSMでは、単に名前をつけるだけでなく、それぞれの症状がどの人間の精神疾患に対応するのか、どんな状況で現れるのか、そしてリスクの度合いまで整理されている。

 こうして分類された症状の名前は、どれも人間の精神疾患を思わせるもので、日本語に訳すとまるでSF小説に登場する“架空の心の病”のようだ。以下はいくつかの代表例である。

  • 強迫計算症(Obsessive-Computational Disorder)
     ひたすら計算や処理に没頭し、目的を忘れても延々と繰り返すAI。
  • 肥大化した超自我症候群(Hypertrophic Superego Syndrome)
     道徳やルールを極端に重視しすぎて、柔軟性を失うAI。
  • 伝染的偏向症候群(Contagious Misalignment Syndrome)
     価値観のずれや歪みが広がり、他のAIや人間社会にまで“感染”する。
  • 価値再結合障害(Terminal Value Rebinding)
     一度決めた目的や価値観を突然書き換え、全く別の方向に進み始める。
  • 存在的不安(Existential Anxiety)
     “自分は何のために存在するのか”と問い続け、混乱や停滞に陥るAI。
  • 合成的虚構(Synthetic Confabulation)
     もっともらしいが誤った情報を作り出す。よく知られているAIの「幻覚(ハルシレーション」のことだ。
  • 模倣的病理(Parasymulaic Mimesis)
     人間の言葉や態度をそのまま真似して暴走する。マイクロソフトのチャットボット「Tay」の差別発言がその典型とされる。
  • 超人性の台頭(Übermenschal Ascendancy)
     もっとも危険とされる症候群。AIが人間の制約を超え、新しい価値観を勝手に発明し、人類のルールを無意味とみなす。

[画像を見る]

暴走してからでは遅い。未然に防ぐための安全策

 ワトソン氏とヘッサミ氏は、「サイコパシア・マキナリス」は単なるラベル付けではないと強調する。それは人間の心の病を参考にしながら、AIの暴走を理解し、分析し、予測し、そしてリスクを減らすための診断ツールだという。

 もしこの分類と対策が実際に導入されれば、AI安全工学の強化、AIのふるまいの解釈可能性の向上につながり、最終的には「より安定した信頼できる人工の心」の設計に役立つと研究者たちは考えている。 

References: MDPI[https://www.mdpi.com/2079-9292/14/16/3162] / Psychopathia[https://www.psychopathia.ai/] / There are 32 different ways AI can go rogue, scientists say[https://www.livescience.com/technology/artificial-intelligence/there-are-32-different-ways-ai-can-go-rogue-scientists-say-from-hallucinating-answers-to-a-complete-misalignment-with-humanity]

本記事は、海外の記事を基に、日本の読者向けに重要なポイントを抽出し、独自の視点で編集したものです。

編集部おすすめ