
AIが過去に自ら生成したコンテンツを学習データとして使い始めるのは、時間の問題だった。
大規模言語モデル(LLM)をベースにした生成AIが現代社会を席巻するようになったのは、ほんの数年前のことだ。
にもかかわらず、彼らはたちまち人間の知識を食い尽くし、身につけるべきさらなる知識を求め始めた。そこで狙いをつけたのが、AI自身が過去に生み出したものだ。
ではAIが生成した知識で学んだAIは、さらに賢くなるのだろうか?答えは逆だ。
出力がおかしくなりゴミのようなコンテンツを吐き出すようになったという。それがAIを崩壊させると科学技術ジャーナリストは警鐘を鳴らしている。
AIがAI生成データを学習するという悪循環
AIがAIから学ぶとモデルが崩壊してしまうリスクについては以前も指摘されていた。
科学技術を専門とするジャーナリスト、スティーブン・ヴォーン=ニコルズ氏は、この現象を「GIGO」の典型例であると指摘する。
GIGOとは、”Garbage In, Garbage Out”の頭文字をとったもの、「ゴミを入れればゴミが出る」という意味だ。
コンピュータサイエンスの分野では、質の悪いデータを入力すれば、当然のように質の悪い結果になることを、GIGOと呼んでいる。
どんなに優れたAIモデルであっても、質の悪い情報からしか学習することができなければ、賢いモデルには成長してくれない。
AIが口にする言葉は次第に一貫性を失い、明らかに間違った情報や、不快で有害な内容すら吐き出すようになる。
こうした劣化を予防するために、Google、OpenAI、AnthropicといったAI関連企業は、「RAG(Retrieval-Augmented Generation/検索補助生成)」と呼ばれる手法を試している。
RAGとは、簡単に言うと、AIにググらせる方法だ。
こうすれば、AIは人間が新たにネットに投稿した最新情報に触れることができる。常に新鮮で良質なコンテンツから学ぶことで、AIモデルの崩壊を防げるはずだった。
対策として導入された検索補助生成の限界
ところが困ったことに、これまで知識の宝庫だったはずのネットが、すでに生成AIの粗悪コンテンツで埋め尽くされたゴミの山と化しているのだ。
AIが吐き出したスパムのごときブログ、何度も使いまわされて古びた豆知識、AIがAIから学んで書いた中途半端なアドバイスなどなど、ほとんど役に立たないゴミのような情報がネットに溢れているのだ。
そんな汚染された情報源を検索したところで、何か意味はあるのだろうか?
この懸念は、Bloombergの研究者[https://arxiv.org/abs/2504.20086]によって確認されている。
試みに11種の最新RAG搭載モデルを従来型モデルと比較していたところ、プライバシーの侵害から誤情報の生成まで、RAG搭載モデルのほうが危険かつ非倫理的な回答をする傾向にあったのだ。
ヴォーン=ニコルズ氏が懸念するのは、こうしたモデルがカスタマーサービスや健康相談窓口など、ごく日常的なところですでに採用されていることだ。
同氏はこの状況を「スローモーションで起きている衝突事故のようなもの」と述べ、いずれ起こりうる深刻な問題を示唆している。
AIの未来は人間の知識次第
今や人類はAIにさまざまな意思決定を委ねてしまっている感があるが、頼りのAIが依拠しているのは、もともと私たち人間が積み重ねてきた知恵であることを忘れてはいけないようだ。
地上でもっとも高い知能を誇るはずの私たちがすべてをAIに任せて、自ら調べた新しい情報を伝えようとしなくなったら?
その時、AIはAIから学んで劣化し、人類は再び自ら考えざるを得なくなる……そんな皮肉な事態もあり得るのだろうか?
References: AI model collapse is not what we paid for • The Register[https://www.theregister.com/2025/05/27/opinion_column_ai_model_collapse/]
本記事は、海外の記事を参考に、日本の読者向けに重要な情報を翻訳・再構成しています。