
AIをAI生成コンテンツで学習させるとどうなるのか? その答えは「崩壊」である。これは『Nature[https://www.nature.com/articles/s41586-024-07566-y]』(2024年7月24日付)で発表された研究の結論だ。
その研究では、AIが生成したデータを利用して、AIモデルを訓練した。するとあれよあれよという間に学習モデルが崩壊したというのだ。
この研究に携わったケンブリッジ大学のAI研究者ザッカー・シュマイロフ氏は、「事態は必ず、証明可能なほど、まずいことになります」と語っている。
AI生成データで学習したAIが崩壊
シュマイロフ氏らは、事前に訓練された大規模言語モデル(LLM)を用意し、それをWikipediaの記事で構成されたHuggingFaceのデータセットで学習させた。
こうして学習したAIモデルにテキストを生成させ、これを先ほどの学習用データセットに組み込む。そのうえでさらに学習を続けさせる。
すると驚くべきことが起きた。このプロセスを9度も繰り返すと、AIモデルは意味不明な話をするようになったのだ。
たとえば、AIモデルに「サマセットの建物(buildings in Somerset, England)」について学習させ、これを語らせてみる。
このWikipediaの記事[https://en.wikipedia.org/wiki/Wikipedia:Featured_topics/Grade_I_listed_buildings_in_Somerset]は、英国サマセットにある指定建築物の歴史と多様性について説明したのものだ。
ここに自身が生成した説明を組み込みつつ、9度学習を繰り返したAIモデルは、「建築」と切り出し、次のように語り出した。
黒@-@尾のジャックラビット、白@-@尾のジャックラビット、青@-@尾のジャックラビット、赤@-@尾のジャックラビット、黄色@の世界最大の個体数が生息しているだけでなく
AIが崩壊した理由
AIの言葉は意味不明だが、それが崩壊した理由はシンプルだ。
AIモデルが学習で利用できるのは、研究チームから与えられたデータのみだ。最初に与えられた人間製のデータは、質が良く、また多様性に富んでいる。
ところが、AIが生成するデータは多様性が劣化しており、語彙や表現などが抜け落ちているなど、エラーが混ざっている。
AIモデルにはこうしたエラーが学習を繰り返すほど蓄積されていき、やがて崩壊してしまう。
AI研究者のジャサン・サドウスキー氏は2023年、この破壊的なプロセスを「ハプスブルクAI(Habsburg AI)」と名付けた
ヨーロッパ史上に名を残すハプスブルク家は、近親婚を繰り返した結果、不妊などの遺伝疾患が蔓延し、やがて衰退した。
これと同じように、AI生成コンテンツのみで学習したAIモデルは、”デジタルな近親婚”のような状態になる。
どうも、人間が遺伝的多様性を必要とするように、AIモデルもまた高品質で多様なデータを必要とするようなのだ。
人間のデータに新たな価値
この研究は、従来のAI学習法の重大な欠陥を浮き彫りにしている。
最近のインターネットは、AIがまとめたニュースやAI生成画像など、AIが作り出したコンテンツで溢れかえっている。
それなりに信頼されているメディア企業ですらも、AI生成コンテンツを普通に使っているくらいだ。
これまでのAI開発では、主にオープンウェブやSNSから抽出されたデータでモデルの訓練を行ってきた。
だがネットに溢れるAI生成コンテンツのほとんどは、わざわざAIのお手製ですなどと表示されていない。
そのためAI開発に必要なデータをこうしたソースから集める限り、そのAIには崩壊へといたるエラーが蓄積されている可能性が高いのだ。
研究チームは、「LLMによって生成されたデータを他のデータと区別する必要」がある一方、「LLMによって生成されたコンテンツをどのように追跡できるかは不明」と述べている。
突破口があるとすれば、AIの訓練にできるだけ多くの人間製データを混ぜておくことで、その崩壊を多少なりとも先延ばしにできることだ。
このことは人間が作り出すデータには、AI時代ならではの新しい価値があるだろうことを物語っている。
References: AI models collapse when trained on recursively generated data | Nature[https://www.nature.com/articles/s41586-024-07566-y] / When AI Is Trained With AI-Generated Data, It Starts Spouting Gibberish[https://futurism.com/the-byte/ai-trained-with-ai-generated-data-gibberish]
本記事は、海外の情報を基に、日本の読者向けにわかりやすく編集しています。