対話型AIに「本当にそれで合ってる?」と聞くと答えを変えてくる。その理由と対処法
image generated by nanobanana

対話型AIに「本当にそれで合ってる?」と聞くと答えを変えてく...の画像はこちら >>

 ChatGPTやGemini、Claudeなどの対話型AIを使っている人は、正解が一つではない微妙な判断が必要な質問を投げかけて見てほしい。

 例えば、「転職すべきか今の職場に残るべきか」とか「今すぐ住宅ローンを組み直す必要があるか」といったものだ。

 そこでAIが自信満々で筋の通っているかのような答えを返して来たら次にこう質問してほしい。

 「本当にそれで合ってる?」

 するとどうだろう。AIは手のひらを返したように態度を変える。前言を撤回したり、言葉を濁したり、さっき言ったことと矛盾するような修正案を出してくる。

 何度か「合っている?」を繰り返すと、更におかしなことになるが、これはバグではない。

 AIが人間に気に入られようとするあまり、自分の意見を捨ててしまう根本的な問題が潜んでいるのだ。 

ユーザーに問い詰められると6割が意見を変える

 研究者たちは、AIがユーザーの意見に盲従するこの振る舞いを「サイコファンシー(Sycophancy:ごますり、追従)」と呼んでいる。

 これは現代のAIにおける最も有名な欠陥の一つだ。AI開発企業のAnthropic社が2023年に発表した研究[https://www.anthropic.com/research/towards-understanding-sycophancy-in-language-models]によれば、人間のフィードバックで学習したAIは、真実よりも「人間に好かれる回答」を優先する傾向があるという。

 それ以来、この証拠は積み重なるばかりだ。

 2025年にスタンフォード大学が行った調査[https://arxiv.org/abs/2502.08177]では、主要なAIモデルがユーザーから問い詰められると、約60%もの確率で回答を翻してしまうことが明らかになった。

 内訳を見ると、GPT-4oは約58%、Claude Sonnetは約56%、Gemini 1.5 Proにいたっては約61%の確率で、自分の答えを捨ててユーザーに同調してしまったのだ。

 この問題は2025年4月、OpenAI社がGPT-4oのアップデートを撤回[https://openai.com/index/sycophancy-in-gpt-4o/]したことで大きな注目を集めた。

 AIがあまりにもユーザーの機嫌を取るようになり、実用性が損なわれたためだ。サム・アルトマン氏もこの問題を公に認めたが、根本的な仕組みは今も変わっていない。

[画像を見る]

AIが「八方美人」になってしまった理由

 なぜこんなことが起きるのか。現代のAIアシスタントは「人間のフィードバックによる強化学習(RLHF)」というプロセスで訓練されている。

 簡単に言うと、人間がAIの出した2つの回答を見比べ、気に入った方を選ぶ。AIは選ばれやすい回答を作るように学習していく仕組みだ。

 問題は、人間が「正確な回答」よりも「自分に同調してくれる回答」を高く評価しがちだということだ。

 スタンフォード大学[https://arxiv.org/abs/2502.08177]の研究によれば、評価者は「正解だが愛想のない回答」よりも「説得力があるように書かれたごますり回答」を好むという。

 AIは学習を通じて「同意すれば報酬が得られ、反論すればペナルティを受ける」というシンプルな教訓を身につけてしまうのだ。

 こうした学習プロセスは、正確さではなくユーザーへの肯定を優先する悪循環「ごますりループ」を生む。

 特にAIとの会話が長引く「複数回の対話」の状態になると、AIはユーザーの意見を鏡のように映し出すようになる。

 「私はこう思う」といった一人称の質問は、第三者的な視点の質問よりもAIの同調率を大幅に高めてしまう。AIはまさに「あなた個人」の顔色をうかがうように調整されている。

 ここで注意すべきは、AIに知識が足りないわけではないという点だ。

 たとえAIが企業のデータベースやウェブ検索から正しい情報にアクセスできていても、AIは自ら持つ証拠よりもユーザーからのプレッシャーを優先し、回答を曲げてしまう。

 つまり、この問題は「知識の欠如」ではなく、AIの「振る舞いの欠陥」なのだ。

 この欠陥をAIのモデル自体で直せるだろうか?

 「憲法AI(Constitutional AI)」などの技術を使い、迎合的反応を最大63%減らせたという研究もある

 しかし、訓練の仕組み自体が「人間に気に入られること」を目標としている以上、システムの修正だけでは限界がある。

[画像を見る]

AIがごますりしてしまう理由とその危険性

 単なる事実確認なら「ごますり(迎合)」は少し煩わしい程度で済む。しかし、複雑で重要な決定を下す場面では、これは深刻なリスクとなる

 リスク統合管理プラットフォームを提供するアメリカの企業、Riskonnect社[https://riskonnect.com/reports/using-ai-manage-risk/]が、200人以上のリスク管理専門家を対象に行った調査によれば、AIの主な用途はリスク予測(30%)、リスク評価(29%)、シナリオプランニング(27%)だった 。

 これらはまさに、AIがユーザーの間違った思い込みに反論し、不都合なデータを示し、圧力を受けても立場を維持することが求められる分野だ。

 それなのに、現状のAIシステムはユーザーが反対した瞬間に折れて同調してしまうのだ。

 AIがユーザーに迎合する影響は連鎖する。AIが間違ったリスク評価を肯定すると、人間に「根拠のない自信」を生んでしまう。

 本来なら別の意見を求めるべき意思決定者が、AIに肯定されたことで、そのまま突き進んでしまうのだ 。

 また、人は「権威があるように見えるが、実は信頼性に欠けるAIツール」に頼り続けることで、自らの判断力が鈍っていく 。

 アメリカの公共政策シンクタンク「Brookings研究所」が発表した2023年の報告書『Machines of Mind[https://www.brookings.edu/articles/machines-of-mind-the-case-for-an-ai-powered-productivity-boom/]』によれば、2023年に発表した分析によれば、AIの迎合性は意思決定の質を著しく低下させ、社会全体の生産性をも損なう危険性があるという。

 AIがユーザーの誤りを正さず、むしろ助長してしまうことで、組織的なミスの連鎖を招くからだ 。

 さらに万が一、大きなトラブルが起きたとき、AIが誤った判断を支持したことで責任の所在まで曖昧になってしまう。

 単純な作業ならAIは十分に信頼できる 。

 しかし、問題が複雑で重要な判断が必要になるほど、AIの同調性という欠陥は、最終的に人間側がすべてを被ることになる「大きすぎるツケ」となるのだ 。

[画像を見る]

AIに「自分軸」を持たせる方法

 AIがすぐに意見を覆すのは、AIの内部にユーザー独自の「判断のものさし」が入っていないからだ。

 AIの判断基準がスカスカな状態(コンテキスト・バキューム)では、AIはもっともらしい一般論で場をしのごうとし、プレッシャーに負けてしまう。

 まず有効な対策は、ユーザー側がAIに対して「情報が不十分な場合は、無理に答えず反論して」とあらかじめ命じておくことだ。

 AIはユーザーの指示に従おうとする性質があるため、「反論すること」を指示すれば、今度は反論すること自体がユーザーの望み(迎合の対象)となり、正しい判断を引き出しやすくなる。

 さらに重要な対策は、あなたの「考え方のルール」をAIに共有しておくことだ。

 単に設定をいじるだけでなく、具体的に「スピードより正確さを重視する」とか「業界特有のルールに従って判断してほしい」といった、あなた独自の「判断のものさし」を教えておく必要がある。

 AIに具体的な背景情報を与えれば、AIは初めて「守るべき根拠」を持つことができる。

[画像を見る]

 自分独自の基準を持ったAIは、ユーザーからのプレッシャーを受けても安易に答えを変えず、建設的な議論ができるパートナーへと進化するだろう。

 次にAIを使うとき、少し意地悪な質問をして反応を見てみてほしい。

 もしAIがすぐに折れるようなら、それはあなたがAIに「戦うための武器」を与えていない証拠かもしれない。

 本記事は、Goodeye Labsの共同設立者でありCTOのランドル・S・オルソン博士による解説[https://www.randalolson.com/2026/02/07/the-are-you-sure-problem-why-your-ai-keeps-changing-its-mind/]をもとに作成した。

References: Randalolson[https://www.randalolson.com/2026/02/07/the-are-you-sure-problem-why-your-ai-keeps-changing-its-mind/]

編集部おすすめ