「教養としての生成AI」生成AIの最新動向をキャッチアップする　【Generative AI Business Day X イベントレポート】

2023年10月11日(水)05:00

「教養としての生成AI」生成AIの最新動向をキャッチアップする　【Generative AI Business Day X イベントレポート】

ChatGPT・生成AIの活用方法や事例をテーマにしたオンラインイベント「Generative AI Business Day X」が、2023年8月29日に開催されました。前回の記事では、ChatGPTや生成AIを企業がどのように活用しているか、その実態をお届けしました。

本記事では、生成AIの最新動向が語られたセッション「教養としての生成AI ～検索から生成へ～」をレポートします。本セッションでは、AI研究家の清水亮氏が登壇し、生成AIをめぐる直近のニュースやテクノロジーの進化について語られました。

前回の記事はこちら

生成AIの成り立ちと現在の動き

清水：今日は生成AI関連のお話をしますが、まずは、そもそも「生成する」とは何か、また、なぜ突然ここ1年で生成AIが流行り出したのかを簡単に説明いたします。昔は、手書きの0から9までの数字をAIに入力して、正しい数字が出力されるように学習する「手書き数字認識」というものがありました。その次に、猫や犬の写真を入力し、何の写真か正しく出力させるものもありました。これに対して生成AIは、「調子どう？」と入力すると「元気だよ」と出力されるようなものです。これらは順に「分類」「認識」「生成」といわれていますが、基本的には全て同じことしかしていません。

ただ、出力次元が違います。0から9までの数字であれば10次元、猫や犬など1,000種類ほどのなかからどれかということであれば1,000次元で済みます。しかし、文章では1億次元以上になります。これは、それほど大量の情報を処理しなければならないという意味で、今まで機械が追い付かなかったのです。最近になって、機械が追い付いてきたからこそ、「生成する」ということが可能になったのが現在までの流れになります。

次に、最近の大規模言語モデルに関して、GPT-4以降の動きを振り返ります。

2023年4月18日、Stability AIという会社が日本語でも使うことができる「StableLM」を出しました。5月5日、MosaicMLが「MPT-7B」というモデルをリリースし、このあたりからオープンで自由な大規模言語モデルをつくって配ろうという動きがどんどん出てきます。5月9日に「RedPajama-INCITE-3B」、5月16日に「Rinna-3B」が出て、5月24日には「QLoRA」という手法が知られるようになりました。さらに「OpenLLaMA」が6月18日、「MPT-30B」が6月24日、「HyenaDNA」が6月30日に出ました。

HyenaDNAでは非常に長いコンテキストを読むことができるので、人間の遺伝子情報を読ませて「この人はこのような病気にかかりやすい」「この人は日本人だ」などを判定できるのではないかという研究がスタンフォード大学で行われています。DNAは、人間には読めないほど長くて複雑なものです。

AIによってこれを読めるようになると何が起きるかを考えてみます。例えば、果物のDNAを読ませると「これは柑橘類で、暑いところで育ちやすく、水害に弱く、こういう虫に弱い」ということを言葉で説明できたり、逆に、「りんごみたいな果肉のあるイチゴをつくってください」「スイカより大きくて甘いりんごをつくってください」と入れたら、その通りにつくってくれるなど、ほしい食べ物のDNAをつくってもらうことも将来的にはできるのではないかと思います。他にも、「牛よりも大きい豚」や「豚が食べると健康になる牧草」などもできますし、誰かの遺伝子を解析して、「この人が健康になるお茶をつくってください」と入力すると、そのお茶のDNAをつくり、その人専用で販売するような「オーダーメイド食物」もできるかもしれません。ここまでくると、「生成」が意味する付加価値が全く変わってくると考えられます。

「HyenaDNA」の生成プロセス

via hazyresearch.stanford.edu7月に入ると「Claude 2」が発表されました。これは、もともとOpenAIでChatGPTをつくっていたチームが独立し設立された会社が提供していて、性能はGPT-4に匹敵するといわれています。GPT-4は、どのようにつくっているか、何を学習しているかなどの情報が公開されていません。

この理由は、競争相手に情報を与えてしまったり、さらにいえば、GPT-4が技術的にそれほど難しいものではないことが分かってしまうのが困るからではないかと推測されています。しかし、その秘密を知っている人がつくったClaude 2によって、やはりGPT-4は情報を知っていれば簡単にコピーできるのだということが分かってきたのです。

7月19日、商業利用可能な「Llama 2」が出ました。性能はGPT-3.5より上でGPT-4より下といわれています。8月9日、画像を入れると、それに沿った物語を生成する「Image2Story」が出てきて、個人的には非常に衝撃的でした。8月10日、「Japanese StableLM Alpha」という日本語対応のものがリリースされ、「AI BunCho」というライトノベルを学習させたモデルも公開されます。

8月15日、LINEが36億パラメータの日本語LLMを公開しました。8月17日に「QuIP 2ビット量子化LLM」、8月18日にStability AIが「Japanese InstructBLIP Alpha」、東京大学の松尾研究室が「Weblab-10B」と続きます。

「Llama 2」をはじめとするMeta社のAIソリュ...

「Llama 2」をはじめとするMeta社のAIソリューション

via ai.meta.comGPT-4は巨大なモデルではなく、GPT-3クラスのモデルを8つくらい組み合わせているのではないかといわれており、この組み合わせる手法を「MoE（Mixture of Experts）」といいます。これをさらに小さい規模で実現した「LMoE」が8月24日に出てきました。これにより、例えば、専門性の高いLlama 2をいくつか組み合わせると、GPT-4のようなLlama 2をつくることができる可能性があるということです。無料で利用できるので、こちらのほうがよいのではないかという動きもあります。そして、8月25日にLlama 2にプログラミング言語を学習させた「Code Llama」が登場し、GPT-4には敵わないが他のものよりはよいといわれています。

そして、まさに本日、先ほど「ELYZA-japanese-Llama-2-7b」が発表されました。

こうした最近のLLMの傾向をまとめてみます。まずは、GPT-4やLlama 2のように、40言語でも150言語でも自然言語をなんでも覚えようとするものがあります。ただ、これには賢さに限界があると思っています。そのため、最近は「英語と日本語」「英語と中国語」など、英語ともう一つの言語だけを覚えるバイリンガルなものが流行っています。WeblabやQwen、rinnaなどです。また、Code LlamaやGitHub Copilotなどのプログラミング特化型、WizardLMなどの科学知識特化型、先ほども登場したHyenaDNAのような特定知識特化型などがあり、LLMのなかでも分化しています。

「検索」から「生成」の時代へ

ここからは、「検索から生成へ」というメインテーマです。「検索」は、多くあるもののなかから一個を見つけるというものです。しかし、これは人間のあらゆる活動の出発点に過ぎません。人間は本来、ずっと「生成」をしており、「検索」は、その手がかりに過ぎなかったのです。最近になって「検索」を介さず「生成」を直接できるようになったことで、「ほしいものを探す」から「ほしいものをつくらせる」ことができるようになりました。例えば、「じゃらんでホテルを探す」から「生成AIにツアーを生成させる」、「Amazonで本を探す」から「生成AIに自分の読みたい本を書かせる」、「TikTokで動画を探す」から「生成AIがあなたの見たい動画を自動生成する」などです。このような時代がすでに始まっています。

テクノロジーがどのように進化するかについて、「テクニウム」という考え方があります。例えば、昔は半導体とコンピュータは全く関係のないものでした。半導体はどちらかといえばアナログなもので、コンピュータはデジタルなものと考えられていたのです。この二つが合体することで、進化した「コンピュータ」が生まれました。しかし、この頃のコンピュータにはまだキーボードがありません。キーボードも、もともとはタイプライターという、コンピュータとは全く関係のない分野にあったものでしたが、後にコンピュータと合体しました。コンピュータにはもともと、画面もありませんでしたが、これも合体します。さらに、コンピュータには電池もついていませんでした。それが合体し、モバイルコンピュータができます。そして、モバイルコンピュータとは全く関係のなかった電話が合体し、スマートフォンになりました。丁寧に辿るともっと複雑な過程がありますが、このように、テクノロジーは全く関係のないものが二つ以上くっついて新しいものが生み出されるのです。それでは今後、スマートフォンと生成AIがくっつくことでどのようになるのでしょうか。このようなことを是非皆さんも考えてみてください。本日は以上で終了とさせていただきます。ありがとうございました。

清水亮

AI研究家

1976年、新潟県長岡市生まれ。Uber Eats配達員。6歳の頃からプログラミングを始める。プログラマーとして渡米し、それから様々な世界を放浪の末、2004年に情報処理推進機構（IPA）より「天才プログラマー／スーパークリエータ」に認定。以後、10社の会社設立に関わる。近年はディープラーニングを活用した人工知能の開発を専門に行い、2022年よりパーソナルAIサービスMemeplexを開始。著書に『よくわかる人工知能』（KADOKAWA）、『教養としてのプログラミング講座』（中公新書ラクレ）などがある。

編集部おすすめ