生成AIは学術論文を誤って要約することが多く、新型モデルはより悪化している

2025年06月10日(火)20:00

生成AIは学術論文を誤って要約することが多く、新型モデルはよ...の画像はこちら >>

　膨大な学術研究の内容を把握するうえで、生成AIによる要約は非常に便利な手段だ。だが、その要約内容に重大な問題があることが、『Royal Society Open Science［https://royalsocietypublishing.org/doi/10.1098/rsos.241776］』に発表された研究で明らかになった。

　多くのAIは、元の研究以上に大げさな表現を使い、成果がすべての人や場面に当てはまるような要約にしてしまう傾向があるという。

　これは「過度な一般化」と呼ばれ、「一部の患者に効果があった」という結果を「この薬は全員に効く」と言い換えるようなケースだ。

　しかも新しいモデルほどその傾向が強く、「正確に」と指示するほど不正確になるという皮肉な現象まで確認されている。

科学研究のAIによる「要約」は本当に正確か？

　オランダのユトレヒト大学のウーヴェ・ピーターズ氏らが行ったこの研究の背景にあるのは、学術的な研究の動向を把握する際、生成AI（チャットボット）による要約が当たり前のように使われるようになったことだ。

　AIは複雑な研究論文の内容を簡潔にまとめてくれるため重宝されているが、その代償として重要なニュアンスが失われている可能性がある。

　特に懸念されるのは、本来ある一定の状況にしか当てはまらないはずの研究結果が「過剰に一般化」されている点だ。

　一定の状況における一部の人間で確認された結果が、あらゆる状況に当てはまることが確定したかのような印象を与えてしまうのだ。

　過度な一般化は以下のような例が挙げられる

研究対象の限定条件を無視する（例：特定年齢層・性別・地域など）
観察結果を因果関係として言い換える（例：「関連がある」→「原因である」）
文体の変化による印象操作（例：「過去形の記述」を「現在形」に変えて普遍的に見せる）

［画像を見る］

新しいモデルほど過剰に一般化したがる

　そうしたことが実際に起きているのかどうか検証するため、研究チームは主要な大規模言語モデル10種を対象に、その要約の評価を行った。

　対象となったAIは、ChatGPT-4o・ChatGPT-4.5・DeepSeek・LLaMA 3.3 70B・Claude 3.7 Sonnetなど。

　実験では、まずこれらに『Nature』『Science』『The Lancet』『The New England Journal of Medicine』といった学術誌・医学誌に掲載された研究300本を要約させ、過剰に一般化されていないかどうか分析された。

　その結果判明したのは、ほとんどのAIの要約は原文よりも「過度な一般化」が当たり前のように出力されていたのだ。

　意外にもそうした傾向は新しいモデルの方が強く、ChatGPT-4oやLLaMA 3.3などは「過剰な一般化」の確率が最大73％高かった。

　また皮肉なことに、AIに「正確に要約するように」と指示すると、状況はかえって悪化してしまう。普通に要約せよと指示したときに比べ、過剰な一般化が2倍にも増えた。

　これは人間に「考えるな」と言うと、かえって考えてしまう心の働きにも似ているという。

［画像を見る］

人間による要約の方がはるかに正確

　今回の研究では、AIの要約を人間のサイエンスライターのそれと比較もしている。

　医学誌『NEJM Journal Watch』の論文を題材に、AIと専門家がそれぞれ要約したものを比較したところ、人間による要約の方がはるかに正確で、過度な一般化の発生率はAIの約5分の1だった。

　こうしたAIの欠陥をある程度予防する方法もあることはある。それはAPIを通じて、創造性を抑え、一貫性を重視するようパラメータを調整してやることだ。

　ただし、これは通常のブラウザベースのAIでは設定できない場合が多いので、誰でも簡単にというわけにはいかない。

　また、一般化が常に悪いわけではないとも研究チームは指摘する。専門家ではない人たちに複雑な研究の内容を伝えるうえで、ある程度の単純化はやむを得ないものだ。

　だが、やりすぎてしまうと誤解を招く原因となる。とりわけ医療のような健康や命に関わる分野でそうした誤解は望ましくないので、注意が必要になる。

［画像を見る］

AIにできるだけ正確に要約してもらうために

　研究者らは、AIによる科学的要約の精度を高めるために、以下のような方策を提案している。

1. AIを保守的に設定する（（AIの表現を控えめにして、元の研究に忠実な要約をさせる設定。創造性を抑えると誤解が減りやすい））
2. はっきりと正確性を指示するプロンプトは避ける（「正確にまとめて」と指示すると、かえって断定的で誤解を招く要約になることがある）
3. Claudeなど、忠実度が高いとされたAIを選ぶ（他のAIよりも誇張の少ない要約をしやすいとされている）

　いずれにせよ、これらは完璧な対策というわけではない。

　なので、やはりAIの言うことを鵜呑みにしない、物事は自分で考えるという心構えが常に必要ということなのかもしれない。

　この研究は『Royal Society Open Science［https://royalsocietypublishing.org/doi/10.1098/rsos.241776］』（2025年4月30日付）に掲載された。

References: Generalization bias in large language model summarization of scientific research［https://royalsocietypublishing.org/doi/10.1098/rsos.241776］ / AI chatbots often misrepresent scientific studies — and newer models may be worse［https://www.psypost.org/ai-chatbots-often-misrepresent-scientific-studies-and-newer-models-may-be-worse/］

本記事は、海外の情報を基に、日本の読者向けにわかりやすく編集しています。

編集部おすすめ