AIに罪悪感を持たせると人間に協力的になる。ただし本気で反省しているとは限らない
Photo by:iStock

AIに罪悪感を持たせると人間に協力的になる。ただし本気で反省...の画像はこちら >>

 人工知能に「罪悪感」のような感情を模した機能を持たせることで、人間とより協力的な関係を築ける可能性があることが、最新の研究で明らかになった。

 現在、ゲーム理論にもとづくシミュレーションを通じて、AIに感情のような仕組みを与えることの社会的な意義が探られている。

 SFの世界では、ロボットやAIが冷酷で人間を操る存在として描かれることが少なくない。しかし、プログラム次第では人間に寄り添う存在となる可能性もあるという。

 一方で、それが本当に誠実な反省や感情によるものなのかは疑わしく、見せかけの行動にすぎない可能性も指摘されている。

 この研究は『Journal of the Royal Society Interface[https://royalsocietypublishing.org/doi/10.1098/rsif.2025.0164]』誌(2025年7月30日付)に掲載された

AIに「囚人のジレンマ」を体験させる

 スコットランド・スターリング大学のコンピューター科学者、セオドア・チンペアヌ氏らの研究チームが用いたのは、コンピュータゲーム「ザ・シムズ(シムピープル)[https://ja.wikipedia.org/wiki/%E3%82%B7%E3%83%A0%E3%83%94%E3%83%BC%E3%83%97%E3%83%AB]」のキャラクターのようだが、はるかに単純な動作しかしないソフトウェアエージェントである。

 ソフトウェアエージェントとは、あらかじめ設定されたルールに従って自律的に行動する、コンピューター上の仮想キャラクターのような存在だ。

 エージェントたちは「囚人のジレンマ」と呼ばれる2人用のゲームを、近くの相手と何度も繰り返してプレイした。

 「囚人のジレンマ」[https://ja.wikipedia.org/wiki/%E5%9B%9A%E4%BA%BA%E3%81%AE%E3%82%B8%E3%83%AC%E3%83%B3%E3%83%9E]とは、ゲーム理論における代表的な問題のひとつである。

 お互い協力したほうがよい結果になると分かっていても、協力しない方が自分にとっては得になる状況では、両者が協力を選ばなくなるというジレンマを指す。

 このモデルは、2人の囚人が別々に取り調べを受け、自白(裏切り)か黙秘(協力)を選ぶという設定から名付けられた。

 両者が黙秘すれば軽い刑で済むが、一方が自白するとその者は釈放され、黙秘した相手は重い刑を受ける。

 結局自白してしまい、結果的に両者が裏切るという望ましくない結末に至る。

 これは「ナッシュ均衡」と呼ばれる合理的な選択の結果である。

 ナッシュ均衡とは、相手も自分も作戦を変えても、もうそれ以上得をする方法がない状態のことだ。

 囚人のジレンマでは、互いに裏切るという結果がこれにあたり、合理的ではあるが、社会全体としては最も良い結果(パレート最適)にはならないため、「社会的ジレンマ」の一例とされている。

[画像を見る]

AIが囚人のジレンマを繰り返しプレイすると戦略はどう変わるのか

 今回の実験では、AIエージェントたちが同じ相手と何度も囚人のジレンマをプレイし、その戦略がどのように変化するかが観察された。

 囚人のジレンマを1回だけ行う場合は、AIも人間と同じく「裏切り」を選ぶのが合理的だった。

 しかし、同じ相手と繰り返し対戦することで、AIは相手の過去の行動を参考に戦略を変え、協力を選ぶ場面が増えていった。

 ただし、ゲームの回数があらかじめ決まっている「有限繰り返しゲーム」では、AIは最終回に裏切るようになり、その考え方がさかのぼってすべての回に適用され、結果として常に裏切る戦略が選ばれやすかった。

 これは「後退帰納法」と呼ばれる考え方で、最後の回から順番にさかのぼって最適な行動を決める方法のことだ。

 最終回ではもう相手に気を使う必要がないので裏切りが有利になる。そうなると、その1つ前の回でも「どうせ最後は裏切られる」と考えて裏切りを選ぶ。この理屈を繰り返していくと、すべての回で裏切るという結論になる。

 一方、終了回数が分からない「無限繰り返しゲーム」では、長期的な関係を重視して、AIは協力を維持する傾向が見られた。

[画像を見る]

罪悪感を持つAIが協力行動を生み出す

 研究では、900体のエージェントに6種類の異なる戦略を与え、どのように協力行動が広がるかを調べた。

 その中でも「DGCS(Defect Guilt Cooperate Selective)」と呼ばれる戦略は、裏切った後に罪悪感のような行動を示すのが特徴だった。

 具体的には、裏切った直後に自分の得点を一時的に放棄し、再び協力するまでその状態を続ける。

 ただし、この行動は相手も同じようにペナルティを負っている場合に限り発動する。

これにより、一方的に損をすることなく、相手の協力を引き出せる。

 シミュレーションの結果、罪悪感によるペナルティが軽い場合や、エージェント同士のつながりが限られている場合に、DGCS戦略が広がりやすくなった。

 結果として、ネットワーク全体で協力的な行動が主流になる傾向が見られた。

[画像を見る]

AIの罪悪感は本物か、それとも見せかけか

 チンペアヌ氏は、AIに罪悪感のような行動パターンを組み込むことで、人間との信頼関係が築きやすくなると考えている。

 人は、自分と同じ価値観や反省の姿勢を示す相手に安心感を覚えるためだ。

 また、将来的にAIが自己進化を通じて感情のような行動原理を獲得する可能性にも言及している。

 一方で、メルボルン大学の哲学者サリタ・ローゼンストック氏はこの考えに懐疑的だ。

 AIにとっての「謝罪」や「反省」は、単にプログラムされた出力に過ぎない可能性がある。

 現代のチャットボットが「ごめんなさい」と言っても、それが本心かどうかを判断することはできない。見せかけの行動に騙される危険性もある。 

[画像を見る]

人間とAIの間に本当の信頼関係は築けるのか

 今回の研究は、AIに感情を模した行動を与えることが協力行動にどう影響するかを示した重要な事例である。

 罪悪感は単なる心理的感覚ではなく、社会的な信頼を築く機能を持つ。AIがその役割を理解し、適切に行動できるなら、人間社会で信頼される存在になる可能性がある。

 しかし、その行動が本物の感情から来ているのか、単なる模倣なのかを見極めるのは容易ではない。

 今後、AIと人間の関係がどう発展していくのか、その行方は私たち自身の選択にもかかっている。

References: Royalsocietypublishing[https://royalsocietypublishing.org/doi/10.1098/rsif.2025.0164] / Sciencenews[https://www.sciencenews.org/article/ai-guilt-feel-emotion-game-theory]

本記事は、海外の情報をもとに、日本の読者がより理解しやすいように情報を整理し、再構成しています。

編集部おすすめ