
Databricksのオープンソースモデル「DBRX」、既存モデルを超える性能
OpenAI、Anthropic、Cohere、グーグルが強い存在感を示す生成AI市場だが、メタを筆頭にオープンソースモデルの展開により、AIコミュニティでの支持を集める企業も増えつつある。データ管理プラットフォームを提供するDatabricksも最近オープンソースモデルをリリースし、この流れに乗る算段だ。
2023年4月、DatabricksはオープンソースAIモデル「DBRX」を発表した。
DBRXの特徴は、「mixture-of-experts」アーキテクチャにある。DBRXモデルは16のエキスパートサブモデルを含んでおり、各トークンに対して最も関連性の高い4つを動的に選択することで、高いパフォーマンスを実現している。このアーキテクチャにより、実質的にアクティブなのは360億パラメータのみで、高速かつ低コストな動作が可能になるという。
Databricksは昨年、AIスタートアップMosaicを買収しており、同チームが以前研究していたMega-MoEのアプローチをDBRX開発に活用した。DBRXの開発期間は約2カ月、コストは1,000万ドル程度だったと報じられている。
DatabricksがDBRXをオープンソース化した背景には、独自のアーキテクチャを普及させつつ、AI市場における存在感を強めたい意図が見え隠れする。また、顧客の非公開データを用いた独自AIモデルの構築とホスティングを行う同社の主力事業を強化する狙いも見受けられる。
DBRXは英語でのベンチマークでは高い数値を示しているが、実際の商用利用を考えた場合、多言語対応が欠かせない。次項では、DBRXを含むオープンソースモデルの日本語処理能力を検証してみたい。
日本語における評価はどうか?英語論文要約タスクでの検証
前項で紹介したDBRXは、英語でのベンチマークでは非常に高い評価を得ている。しかし、日本語での性能はどうだろうか。この疑問に答えるべく、AnthropicのClaude3に関する英語の技術論文を各モデルに日本語で要約させるテストを行った。検証にあたり、まず論文のテキストを抽出。全42ページのうち、最初の5ページ分の内容を日本語で要約するように指示するプロンプトを入力した。プロンプトの文字数は、空白込みで、19,615文字、空白なしで16,973文字と、比較的長めの文章となる。
プロンプトの一部抜粋検証の結果、オープンソースモデルの日本語対応には大きな課題があることが明らかになった。DBRXやMistral 7B Instruct、Llama v2 70B Chatはいずれも、日本語でサマリーを書くよう指示されているにもかかわらず、英語で回答を生成してしまったのだ。これは、これらのモデルが日本語の指示を正しく理解できていないことを示唆している。

一方、OpenAIのGPTシリーズは比較的良好な結果を示した。GPT-3.5 TurboとGPT-4はいずれも、日本語の指示を的確に理解し、英文の内容を要領よくまとめられている。

日本語に強いモデル:GPT3.5、GPT4、Claude、Gemini、Cohere Command
では、大規模言語モデルの中で、日本語処理に長けているのはどのモデルだろうか。日本語が強いと思われる6つのモデルを比較してみた。評価対象は、Cohere Command R, Cohere Command R+, Gemini Pro1.0, Gemini Pro1.5 (preview), Claude3 Haiku, Claude3 Opusだ。前項と同様に、AnthropicのClaude3に関する技術論文を日本語で要約するタスクを課した。予想通り、6モデルはいずれも原文の内容を的確に要約することができた。
中でも特に優れた要約を生成したのが、Claude3 OpusとGPT4だった。この2モデルは、原文の本質をコンパクトにまとめ上げる能力が秀でていると言える。Opusは、Claude3モデルの中で最も高性能なモデルとされ、推論や数学、プログラミングなどの分野で卓越した性能を示すことで知られる。一方、GPT4はOpenAIが開発したフラッグシップモデルで、最近までは市場最高峰と称されていたモデルだ。




日本企業にとっては、目的に適したモデル選定がこれまで以上に重要になるはず。単に最新のモデルを導入すればいいわけではなく、日本語を含む多言語処理の実力を見極める目が求められる。GPT4やClaude3のような、多言語タスクで実績のあるモデルは、安心して活用できる選択肢と言えそうだ。
文:細谷元(Livit)