
GPT-4に匹敵するモデルを22人で開発したRekaとは?
OpenAIやAnthropicといった大手だけでなく、新興のAIスタートアップ「Reka」が業界の注目を集めている。2024年4月15日の最新報道によると、同社は22人の小規模チームで、GPT-4クラスのマルチモーダル言語モデル「RekaCore」を開発した。Rekaは、ディープマインド、グーグル、メタの研究者らによって設立されたサンフランシスコに本拠を置くAIスタートアップだ。
RekaのCEOで共同創業者のダニ・ヨガタマ氏は、VentureBeatとのインタビューで、「高性能なモデルを非常に短期間で開発できる能力が当社の強みだ」と語った。共同創業者でチーフサイエンティストのイ・テイ氏は、「数千のH100 GPU」を使用してRekaCoreを開発したとしている。わずか1年足らずで業界最高峰となるGPT-4やClaude 3 Opusに匹敵するモデルを開発したRekaの存在は、OpenAIやAnthropic以外のAI企業に勢いを与える可能性がある。
RekaCoreは、パラメータ数は非公開だが、「非常に大規模なモデル」だという。公開データ、ライセンスデータ、テキスト、音声、動画、画像データなどさまざまなデータでトレーニングが実施された。
12万8,000トークンのコンテキストウィンドウにより、大量の情報を一度に取り込んで処理することができ、長文書の処理に適している。コンテキストウィンドウとは、プロンプトに入力できる情報(トークン)のことで、これが多いほど、AIモデルに与えられる文脈情報も多くなり、正確な回答を生成しやすくなる。12万8,000トークンは、OpenAIの最新モデルGPT-4 Turboと同じ量で、業界でも多い方に位置する。現在最高峰は、Claude3の20万トークン。10万トークン以上あれば、数十ページの文章を読み込ませることが可能となり、ユースケースも広がる。
Rekaは、すでにいくつかの大手企業や組織と提携し、モデルの普及に努めている。
Reka Coreの強み・弱み
RekaCoreの最大の強みは、マルチモーダル性能の高さにあるといえるだろう。マルチモーダルとは、テキストだけでなく、画像、音声、動画など、さまざまなデータフォーマットに対応できる能力のこと。特に、単一モデルで動画まで対応できるAIは少なく、主要モデルの中ではGemini Ultraのみだった。
ここに動画認識能力を持つRekaCoreが参戦する格好となる。動画認識のPerception testでは、唯一のライバルであるGemini Ultraを大きく上回るスコア(59.3 vs 54.3)を記録。一方、写真などの静止画を対象とする画像の認識能力を測るMMMUベンチマークでは、GPT-4(56.8)、Claude 3 Opus(59.4)、Gemini Ultra(59.4)、Gemini Pro 1.5(58.5)に次ぐ56.3と主要モデルに肉薄する実力を示している。
Rekaのテクニカルレポートによれば、MMMUベンチマークのカテゴリー別のスコアでは、RekaCoreは「Art(芸術)」(86.7)、「Literature(文学)」(90.0)、「History(歴史)」(80.0)など人文系の分野で高得点を獲得。一方、「Electronics(電子工学)」(26.7)、「Physics(物理)」(36.7)、「Architecture and Engineering(建築・エンジニアリング)」(40.0)など理系の分野ではやや苦戦した。
MMMUベンチマーク、カテゴリー別のスコア(Rekaのテクニカルレポートより)
(https://publications.reka.ai/reka-core-tech-report.pdf)ちなみに、MMMUベンチマークテストでは、以下のような問題が出題される。


https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model価格面では若干の努力が必要かもしれない。RekaCoreの利用料はインプット100万トークンあたり10ドル、アウトプット100万トークンあたり25ドルとなっている。GPT-4 Turboがインプット(100万トークンあたり)10ドル、アウトプット30ドルであることを鑑みると、価格面での魅力は高いとは言えないだろう。
RekaCore、日本語の実力は?
RekaCoreを日本語環境下で使用したところ、一長一短といった評価になった。まず「生成AIに関する最新ニュースを教えてください」というプロンプトに対し、RekaCoreはOpenAIのGPT-4やグーグルのBERT、フェイスブックの画像認識AIなどのAIニュースに関する情報を日本語で生成した。評価したいのは、日本語のプロンプトに対し日本語で回答できる多言語能力の高さ。メタの最新モデル、Llama3が英語のみの対応なのに比べ、RekaCoreは日本語にも対応できている点は評価に値する。


もう1つ「Claude 3とは?」という質問を投げかけてみた。Claude 3とはOpenAIの競合であるAnthropicが2024年3月に発表した最新のAIモデル。RekaCoreの学習データは2023年11月までのものであるため、Claude 3の情報は持ち合わせていない。知らない情報に対して「わかりません」と回答するのが妥当なところだが、多くのAIモデルは、ありもしない情報を丁稚あげるハルシネーションを引き起こす傾向がある。RekaCoreがどのように反応するのかを調べてみた。
残念ながら、ハルシネーションが発生した。「Claude 3とは?」という質問に対し、一見正しく見える回答を生成したが、その内容はClaude 2から類推できるもので、Claude 3のことを解説しているのかはわからない。そこで「Claude3の3つのモデルを教えてください」という追加質問したところ、RekaCoreは、3つのモデル「Claude 3(Base)」「Claude 3(Large)」「Claude 3(XL)」の存在を指摘。

文:細谷元(Livit)