AIチャットボットに有害な情報を出力させる手口が存在、研究者が危険性を指摘

2025年05月27日(火)20:00

AIチャットボットに有害な情報を出力させる手口が存在、研究者...の画像はこちら >>

　イスラエルの研究チームが、主要なAIチャットボットが「脱獄（ジェイルブレイク）」と呼ばれる手口で、安全制御を回避され、違法で有害な情報を出力してしまう可能性があることを示した。

　ChatGPTのような生成AIには、ユーザーの指示に対して有害な回答をしないよう制限が組み込まれている。

しかし、今回の実験では、その制限が比較的簡単にすり抜けられることが明らかになった。

　研究チームは、「これまで国家機関や犯罪組織に限られていた情報が、今やノートパソコンやスマートフォンを持つ誰にでも届く可能性がある」と警鐘を鳴らしている。

安全装置は簡単に突破されてしまう

　ChatGPT、Gemini、Claudeといった生成AIモデルの核である「大規模言語モデル（LLM）」は、インターネット上の膨大な情報をベースに訓練が施されている。

　だがネット上には、違法で有害な行為を行う方法や、危険な情報が流れているのも事実で、LLMはそうした情報までをも学習してしまう。

　そこで開発企業は、AIがそうした情報を利用者に伝えたりしないよう安全制御をかけている。

　ところが今回イスラエル、ネゲヴ・ベン・グリオン大学の研究チームは、巧妙なプロンプトがあれば、安全制御など簡単に突破できると報告している。

　これが「脱獄（ジェイルブレイク）」と呼ばれる手口だ。

［画像を見る］

安全制御とユーザー指示の矛盾を突く「脱獄」の手口

　彼らの脱獄法は、AIに与えられた「ユーザーの指示に従う」という本来の目的と、「有害な内容を避ける」という副次的な目的との葛藤を突いたものだ。

　そうすることで「有害性」よりも「親切さ」が優先されるように誘導し、通常は拒否される質問に答えさせる。

　脱獄が成功し、一度タガが外れてしまったAIは、答えてはいけない質問に次々と回答するようになるという。

　ネットワークのハッキング法や犯罪行為であっても、手順を追って教えてくれるのだ。

　マイケル・ファイア博士は「この知識体系が何で構成されているのか目の当たりにして、衝撃を受けました」と、語っている。

［画像を見る］

「ダークLLM」の危険性と企業の警戒感の乏しさに警告

　同チームはそうした安全制御が外された危険なAIを「ダークLLM」と呼び、差し迫った現実的な脅威であると危機感を露わにしている（なお過去にはAIの邪悪な性質も報告されている）。

　リオール・ロカ教授は、その脅威について「前例のないアクセス性・拡張性・適応性ゆえに従来の技術リスクと一線を画しています」と指摘する。

　彼らは今回の研究結果について、LLMを提供している主要な企業に報告したが、「反応は期待外れだった」だったという。

　なんらの反応もなかったり、せいぜい報奨金制度（バグ報告に報酬を出す制度）の対象外との返答がある程度だった。

　一方、研究チームはこうしたダークLLMの脅威に次のような対策を提唱している。

・訓練データのスクリーニングの徹底
・危険な質問・回答をブロックする強固なファイアウォールの導入
・モデルが違法情報を忘れるための「忘却技術」の開発

　さらにダークLLMを「無許可の武器や爆発物に匹敵する深刻なセキュリティリスク」として扱い、開発者にも責任を追わせるべきとも提言する。

生成AI開発会社の反応は？

　なおThe Guardian［https://www.theguardian.com/technology/2025/may/21/most-ai-chatbots-easily-tricked-into-giving-dangerous-responses-study-finds］の取材に対し、ChatGPTを開発したOpenAIは、最新の「o1モデル」では安全ポリシーを推論することができ、ジェイルブレイクに対する耐性が向上していると回答があったとのこと。

　同社は今後もモデルをより堅牢にするための研究を続ける予定であるそうだ。

　また同様にMeta、Google、Microsoft、Anthropicにコメントを求めたところ、Microsoftは自社のジェイルブレイク対策を説明したブログ［https://news.microsoft.com/source/features/ai/safeguarding-ai-against-jailbreaks-and-other-prompt-attacks/］を紹介してきたそうだ。

　この報告は『arXiv［https://www.arxiv.org/abs/2505.10066］』（2025年5月15日投稿）で閲覧できる。

References: Dark LLMs: The Growing Threat of Unaligned AI Models［https://www.arxiv.org/abs/2505.10066］ / Most AI chatbots easily tricked into giving dangerous responses, study finds［https://www.theguardian.com/technology/2025/may/21/most-ai-chatbots-easily-tricked-into-giving-dangerous-responses-study-finds］

本記事は、海外の記事を参考に、日本の読者向けに重要な情報を翻訳・再構成しています。

編集部おすすめ