LLM(Large Language Model:大規模言語モデル)とは、大量のテキストを用いて学習された自然言語処理用のAIモデル。
近年ではOpenAIによる「ChatGPT」をはじめ、生成系AIが脚光を浴びている。だが、既存のLLMはその多くが英語を中心に学習されているため、日本語や日本文化に強みを持つLLMは少ない。
そのような背景の中、同社では日本語LLMの開発に取り組んできた。今回、その一部モデルを「Hugging Face Hub」で公開。「オープンな日本語データ」としてWikipediaとCommon Crawlを使用した学習を経ており、2023年5月17日(水)時点での国内における現行の公開モデルで最大級の規模を誇る。
今回のモデルは、商用利用が可能な「CC BY-SA 4.0ライセンス」での提供。ライセンスについてはモデル公開ページに詳細の記載がある。
同社では、今後もチャットボットやRPAをはじめとする業界特化型のLLMの構築や、LLMを活用したビジネス開発の推進などを予定。エンジニアの新規採用による体制強化も実施し、国内における自然言語処理技術の発展への貢献を目指している。
株式会社サイバーエージェント
URL:https://www.cyberagent.co.jp/
2023/05/17
