リコー、「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発

2026年01月08日(木)11:00

リコー、「Qwen2.5-VL-32B-Instruct」ベースのマルチモーダルLLMを開発

～図表を含む企業内文書の高度な利活用の実現を目指し、「RICOH オンプレLLMスターターキット」に搭載予定～

　株式会社リコー（社長執行役員：大山晃）は、中国のアリババクラウドが開発・提供する大規模言語モデル（LLM）ファミリーの「Qwen2.5-VL-32B-Instruct*1」をベースに、日本企業の図表を含むドキュメントの読み取りに対応したマルチモーダル大規模言語モデル（以下「LMM」）を開発しました。

　リコーは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）*2」第2期において、LMMの開発に取り組み、独自開発した700億パラメータの基本モデルを無償公開しています。

　このたびリコーは、お客様から基本モデルに対して頂いたフィードバックをもとに、サービング環境の構築の容易さや利活用のしやすさを目指し、よりコンパクトで高性能、かつアプリケーションとの親和性の高いLMMを開発しました。合わせて、4bit量子化モデルも提供します。
本モデルの開発にあたっては、文字、円グラフ、棒グラフ、フローチャートなど、ビジネス文書で活用される視覚データ約60万枚を自社で開発したチューニングデータとして用い、LMMに学習させています。視覚情報とテキスト情報の双方を活用する日本語の質問応答データセット「JDocQA*3」などのベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認しました（2025年12月17日時点）。
　本LMMは、お客様のご要望に応じて個別提供が可能です。さらに、今後「RICOH オンプレLLMスターターキット」に搭載し、リコージャパン株式会社から提供予定です。

1．LMM開発の背景と社会課題
LMMとは、テキスト・画像・音声・動画など複数の種類のデータを同時に処理できるAI技術のことです。スクリーンショットからのテキスト要約や、図を用いた質問への適切な回答など、さまざまなタスクにおいて高い性能を発揮し、幅広いデータ形式を効果的に処理する適応性に期待が集まっています。

企業内で蓄積されるドキュメントには、請求書や領収書などのトランザクションデータ、事業戦略や計画などの経営資料、サービスマニュアルや社内で定めた技術標準、品質管理基準などの技術文書など、さまざまな種類・形式があります。これらのドキュメントには、テキスト情報に加え、図や表組、画像などの情報も含まれています。こうした企業内文書を効率的に活用し、新たな価値創出やイノベーションにつなげることが期待される一方で、「テキスト検索でも意図した結果が得られない」、「検索のみの利用では効果的な活用ができていない」といった課題があります。
また、労働力人口の減少を背景とした効率的な働き方の必要性や、ベテラン社員の退職に伴う技能・ノウハウの継承、外国人労働者の増加に対応した社内文書の多言語化など、企業を取り巻く経営課題は年々複雑化しています。

こうした課題に対して、近年性能が著しく向上しているAIを活用し、企業内に蓄積された知識をより効率的かつ付加価値の高い形で活用したいというニーズが高まっています。一方で、既存のLLMやLMMでは、きめ細かな画像認識を必要とするビジネス文書の読解精度に課題がありました。リコーは、こうした背景を踏まえ、GENIACプロジェクトにおいて、日本企業の実務での活用を想定したLMMの開発に取り組んできました。

2．評価結果

[画像1]https://digitalpr.jp/simg/2160/125905/700_306_20260108081758695ee9a674b24.jpg

各データセットの概要は次の通りです。
JGraphQA: 日本のIR資料に記載されている円グラフ、棒グラフ、折れ線グラフ、表を集め、人手で全200問のQAを付与した図表用のベンチマーク。スコアは1.0が最高値。
JDocQA: 図表を含む日本語文書を対象とし、視覚情報とテキスト情報の両方を参照する質問応答データセット。
JDocQA (overall)　スコア1.0が最高値。
JDocQA(llm): gpt-4o-2024-11-20 を用いた自動評価（LLM as a Judge）を採用。スコアは 5 点満点で評価。
BusinessSlideVQA:ビジネス資料（スライド）を対象とした Visual Question Answering (VQA) ベンチマーク。
gpt-4.1-2025-04-14を用いた自動評価（LLM as a Judge）を採用し回答が正解か否かを2値判定。

スコアは1.0が最高値。

*1　 https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
*2　GENIAC（Generative AI Accelerator Challenge）：リコーは、NEDOが、2024年7月に実施した公募「ポスト5G情報通信システムの開発／競争力ある生成AI基盤モデルの開発（助成）」（以下、「本事業」）に採択されました。本事業では、主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等が行われます。
*3 https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C3-5.pdf
*4 https://huggingface.co/datasets/r-g2-2024/JGraphQA
*5 https://github.com/stockmarkteam/business-slide-questions

■リコーのAI開発について
リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声（VOC）などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。
2022年からは大規模言語モデル（LLM）の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。リコーはLLM開発において、独自のモデルマージ技術（特許出願中）をはじめとした、多様で効率的な手法・技術を活用することで、お客様の用途や環境に最適な企業独自のプライベートLLMを低コスト・短納期で提供しています。
画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。

■関連ニュース
リコー、経済産業省の国内生成AI開発力強化プロジェクト「GENIAC」に採択https://jp.ricoh.com/release/2024/1017_1
リコーと損保ジャパン、マルチモーダルLLMの共同開発を開始
https://jp.ricoh.com/release/2025/0321_1
リコー、GENIACでマルチモーダルLLMの基本モデルを開発完了
https://jp.ricoh.com/release/2025/0610_1
リコー、マルチモーダルLLMの基本モデルと評価環境を無償公開
https://prtimes.jp/main/html/rd/p/000000167.000043114.html

■関連リンク
リコーのAI開発の最前線：企業のAI活用を広げる「マルチモーダルLLM」
https://jp.ricoh.com/news/stories/articles/multimodal-llm

|　リコーグループについて　|
リコーグループは、お客様のDXを支援し、そのビジネスを成功に導くデジタルサービス、印刷および画像ソリューションなどを世界約200の国と地域で提供しています（2025年3月期グループ連結売上高2兆5,278億円）。
“はたらく”に歓びを　創業以来85年以上にわたり、お客様の“はたらく”に寄り添ってきた私たちは、これからもリーディングカンパニーとして、“はたらく”の未来を想像し、ワークプレイスの変革を通じて、人ならではの創造力の発揮を支え、さらには持続可能な社会の実現に貢献してまいります。
詳しい情報は、こちらをご覧ください。

https://jp.ricoh.com/

本件に関するお問合わせ先
＜報道関係のお問い合わせ先＞
株式会社リコー　https://jp.ricoh.com/
広報室 TEL：050-3814-2806 (直通) E-mail：koho@ricoh.co.jp

編集部おすすめ