ChatGPT・生成AIの活用方法や事例をテーマにしたオンラインイベント「Generative AI Business Day X」が、2023年8月29日に開催されました。前回の記事では、ChatGPTや生成AIを企業がどのように活用しているか、その実態をお届けしました。
生成AIの成り立ちと現在の動き
清水:今日は生成AI関連のお話をしますが、まずは、そもそも「生成する」とは何か、また、なぜ突然ここ1年で生成AIが流行り出したのかを簡単に説明いたします。昔は、手書きの0から9までの数字をAIに入力して、正しい数字が出力されるように学習する「手書き数字認識」というものがありました。その次に、猫や犬の写真を入力し、何の写真か正しく出力させるものもありました。これに対して生成AIは、「調子どう?」と入力すると「元気だよ」と出力されるようなものです。これらは順に「分類」「認識」「生成」といわれていますが、基本的には全て同じことしかしていません。次に、最近の大規模言語モデルに関して、GPT-4以降の動きを振り返ります。
HyenaDNAでは非常に長いコンテキストを読むことができるので、人間の遺伝子情報を読ませて「この人はこのような病気にかかりやすい」「この人は日本人だ」などを判定できるのではないかという研究がスタンフォード大学で行われています。DNAは、人間には読めないほど長くて複雑なものです。
「HyenaDNA」の生成プロセス
via hazyresearch.stanford.edu7月に入ると「Claude 2」が発表されました。これは、もともとOpenAIでChatGPTをつくっていたチームが独立し設立された会社が提供していて、性能はGPT-4に匹敵するといわれています。GPT-4は、どのようにつくっているか、何を学習しているかなどの情報が公開されていません。7月19日、商業利用可能な「Llama 2」が出ました。性能はGPT-3.5より上でGPT-4より下といわれています。8月9日、画像を入れると、それに沿った物語を生成する「Image2Story」が出てきて、個人的には非常に衝撃的でした。8月10日、「Japanese StableLM Alpha」という日本語対応のものがリリースされ、「AI BunCho」というライトノベルを学習させたモデルも公開されます。
「Llama 2」をはじめとするMeta社のAIソリューション
via ai.meta.comGPT-4は巨大なモデルではなく、GPT-3クラスのモデルを8つくらい組み合わせているのではないかといわれており、この組み合わせる手法を「MoE(Mixture of Experts)」といいます。これをさらに小さい規模で実現した「LMoE」が8月24日に出てきました。これにより、例えば、専門性の高いLlama 2をいくつか組み合わせると、GPT-4のようなLlama 2をつくることができる可能性があるということです。無料で利用できるので、こちらのほうがよいのではないかという動きもあります。そして、8月25日にLlama 2にプログラミング言語を学習させた「Code Llama」が登場し、GPT-4には敵わないが他のものよりはよいといわれています。こうした最近のLLMの傾向をまとめてみます。まずは、GPT-4やLlama 2のように、40言語でも150言語でも自然言語をなんでも覚えようとするものがあります。ただ、これには賢さに限界があると思っています。そのため、最近は「英語と日本語」「英語と中国語」など、英語ともう一つの言語だけを覚えるバイリンガルなものが流行っています。WeblabやQwen、rinnaなどです。また、Code LlamaやGitHub Copilotなどのプログラミング特化型、WizardLMなどの科学知識特化型、先ほども登場したHyenaDNAのような特定知識特化型などがあり、LLMのなかでも分化しています。
「検索」から「生成」の時代へ
ここからは、「検索から生成へ」というメインテーマです。「検索」は、多くあるもののなかから一個を見つけるというものです。しかし、これは人間のあらゆる活動の出発点に過ぎません。人間は本来、ずっと「生成」をしており、「検索」は、その手がかりに過ぎなかったのです。最近になって「検索」を介さず「生成」を直接できるようになったことで、「ほしいものを探す」から「ほしいものをつくらせる」ことができるようになりました。例えば、「じゃらんでホテルを探す」から「生成AIにツアーを生成させる」、「Amazonで本を探す」から「生成AIに自分の読みたい本を書かせる」、「TikTokで動画を探す」から「生成AIがあなたの見たい動画を自動生成する」などです。このような時代がすでに始まっています。テクノロジーがどのように進化するかについて、「テクニウム」という考え方があります。例えば、昔は半導体とコンピュータは全く関係のないものでした。半導体はどちらかといえばアナログなもので、コンピュータはデジタルなものと考えられていたのです。この二つが合体することで、進化した「コンピュータ」が生まれました。しかし、この頃のコンピュータにはまだキーボードがありません。キーボードも、もともとはタイプライターという、コンピュータとは全く関係のない分野にあったものでしたが、後にコンピュータと合体しました。コンピュータにはもともと、画面もありませんでしたが、これも合体します。さらに、コンピュータには電池もついていませんでした。それが合体し、モバイルコンピュータができます。そして、モバイルコンピュータとは全く関係のなかった電話が合体し、スマートフォンになりました。丁寧に辿るともっと複雑な過程がありますが、このように、テクノロジーは全く関係のないものが二つ以上くっついて新しいものが生み出されるのです。それでは今後、スマートフォンと生成AIがくっつくことでどのようになるのでしょうか。このようなことを是非皆さんも考えてみてください。本日は以上で終了とさせていただきます。ありがとうございました。
清水 亮
AI研究家1976年、新潟県長岡市生まれ。Uber Eats配達員。6歳の頃からプログラミングを始める。プログラマーとして渡米し、それから様々な世界を放浪の末、2004年に情報処理推進機構(IPA)より「天才プログラマー/スーパークリエータ」に認定。以後、10社の会社設立に関わる。近年はディープラーニングを活用した人工知能の開発を専門に行い、2022年よりパーソナルAIサービスMemeplexを開始。著書に『よくわかる人工知能』(KADOKAWA)、『教養としてのプログラミング講座』(中公新書ラクレ)などがある。