AIの盲点、人間の動的な社会的場面を理解するのが苦手なことが判明

AIの盲点、人間の動的な社会的場面を理解するのが苦手なことが...の画像はこちら >>

 米ジョンズ・ホプキンズ大学新たな研究によると、現在のAIは、人間同士の社会的なやり取りを理解するのが苦手であるそうだ。

 ぴたりと止まった写真のようなものを分析するのは、AIが得意とするところだ。

そこに何が映っているのかはかなり正確に理解できる。だが現実は時間が止まった世界ではない。常に動いている。

 そうした動的な場面を目にしたとき、そこにいる人々がどのような関係にあり、何をしており、次にどのように行動するのか?

 こうしたことは生身の人間ならある程度予測できる。ところが、AIはそれをうまく理解できないようなのだ。

人間に寄り添うAIは人間の行動を理解できねばならない

 今後AIが人間社会のインフラになるのだとすれば、社会で生きる人間の行動を正確に理解することが必須となる。

 たとえば車を運転するAIを例に考えてみよう。AIの自動運転車が安全に街中を走行するためには、周囲を走行する人間の運転手や歩行者が何を考え、どうするつもりなのか正確に予測する必要がある。

 歩道で並んで立つ2人の人物は、立ち話をしているのだろうか? それとも赤の他人で今から道路を横断しようとしているのだろうか? こうしたことを正確に把握できねば、たちまち事故を起こしてしまうだろう。

 米国ジョンズ・ホプキンズ大学の認知科学者レイラ・イシク氏は、「人間と関わるAIを目指すなら、人の行動を認識できることが必須となります」と、ニュースリリース[https://hub.jhu.edu/2025/04/24/humans-better-than-ai-at-reading-the-room/]で語っている。

[画像を見る]

AIと人間の社会的行動の理解を比較

 今回の研究でイシク氏らは、AIがそうした人間の社会的な行動をどれほど理解しているのか知るために、まず人間自身による理解を調べ、AIの理解と比較した。

 その実験では、まず人間の被験者に3秒間の映像を見てもらった。映像は、人々がお互いにやり取りしている場面、すぐそばにいるが直接的なやり取りはない場面、各自が独立して行動している場面のいずれかを映したもの。

 被験者は、そこに映る社会的相互作用の理解に重要となる特徴を1~5のスケールで評価した。

 そのうえで今度は350以上の各種AIモデル(動画・画像・言語モデル)に、人間の被験者がそれをどう判断すると思うか(あるいは脳がどのように反応するか)予測させてみた。

 もしうまく予測できるのなら、AIは動く場面における社会的相互作用を人間と同じように評価できるということになる。

[画像を見る]

AIは動的な場面における人間の行動予測が苦手

 ところがAIモデルの結果は一貫性を欠くものだった。

 動画モデルは人々が何をしているかを正確に評価できず、静止画を解析させた画像モデルでさえ、人々がコミュニケーションを交わしているのか正確に判断できなかった。

 言語モデルはある程度うまく行動を予測できたというが、それは人間が書いた短文のキャプションを評価した結果に過ぎない。

 この結果について、研究チームは、AIが静止画像をうまく認識できるのとは対照的であると述べている。

画像を見て物体や顔を認識するだけでは不十分です。それはAIの第一歩で、大きな前進がありましたが、現実世界は静止していません

AIに求められるのは、ある場面において起きていることを理解することです。関係性・文脈・社会的相互作用のダイナミクスを理解することが次の段階となりますが、本研究はそれがAIモデルの開発において盲点になっている可能性を示しています

なぜAIは動的な場面の理解が苦手なのか?

だがAIはなぜ人間の動的なやり取りを理解するのが下手なのだろう?

 研究チームは、AIのニューラルネットワーク[https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF]が、人間の脳の静止画像を処理する領域をベースにしていることによるものだと推測している。

 ニューラルネットワークとは、人間の脳の神経回路を模したアルゴリズムで、データからパターンや特徴を学習し、画像認識や言語処理などを行うAIの基盤技術のひとつだ。

 だが動的な社会的状況を処理する領域はまた違うところにある。

 だから静止画像処理領域をベースにするAIは、動く場面をうまく理解できないと考えられるのだ。

 イシク氏は、「AIは、、間のように“状況の流れ”や“人と人との関係性”を理解する力が根本的に足りていない」と述べている。

 この研究は、4月24日に開催された国際学会『International Conference on Learning Representations 2025』で発表された。

References: When it comes to reading the room, humans are still better than AI[https://hub.jhu.edu/2025/04/24/humans-better-than-ai-at-reading-the-room/]

本記事は、海外メディアの記事を参考に、日本の読者に適した形で補足を加えて再編集しています。

編集部おすすめ