rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成(※1)するように、微調整できます。

【デモ1】講演の感想のコンテキストで文章生成
[画像1: https://prtimes.jp/i/70041/9/resize/d70041-9-660802-0.png ]


【デモ2】書籍の紹介のコンテキストで文章生成
[画像2: https://prtimes.jp/i/70041/9/resize/d70041-9-705822-1.png ]

(※1)上記のデモでは生成する文章の文字数上限を設定しており、実際に生成される全文ではありません。

■rinna社の日本語GPT-2モデルの特徴
当社の日本語GPT-2モデルは、以下の特徴があります。

トレーニングデータとして、CC-100(http://data.statmt.org/cc-100/)のオープンソースデータを使用しています。
Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしました。その結果、このモデルの性能は約18 perplexity (※2)を達成しました。モデルは十分にトレーニングされており、汎用性があると言えます。
ユーザー/研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開しています。また、研究者が自分のマシンで当社の結果を再現できるように、トレーニングコードをGitHubに公開しています。

当時の記事を読む

PR TIMESの記事をもっと見る

トピックス

今日の主要ニュース 国内の主要ニュース 海外の主要ニュース 芸能の主要ニュース スポーツの主要ニュース トレンドの主要ニュース おもしろの主要ニュース コラムの主要ニュース 特集・インタビューの主要ニュース

もっと読む

総合ランキング

ランキングをもっと見る

コメントランキング

コメントランキングをもっと見る

このカテゴリーについて

注目の最新リリース情報など、競合他社の動向が分かるビジネスパーソン必見の最新ニュースを写真付きでお届けします。

通知(Web Push)について

Web Pushは、エキサイトニュースを開いていない状態でも、事件事故などの速報ニュースや読まれている芸能トピックなど、関心の高い話題をお届けする機能です。 登録方法や通知を解除する方法はこちら。

お買いものリンク