ニュース
リコー、「Qwen2.5-VL-32B-Instruct」をベースに図表を含むドキュメントの読み取りに対応したマルチモーダルLMMを開発
2026年1月9日 08:30
株式会社リコーは8日、中国アリババクラウドが開発・提供している大規模言語モデル(LLM)ファミリー「Qwen2.5-VL-32B-Instruct」をベースに、日本企業の図表を含むドキュメントの読み取りに対応したマルチモーダルLMMを開発したと発表した。
リコーでは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施するプロジェクト「GENIAC(Generative AI Accelerator Challenge)」第2期においてLMMの開発に取り組んでおり、独自開発した700億パラメータの基本モデルを無償公開している。
同社は今回、この基本モデルに対して寄せられた顧客からのフィードバックを基に、サービング環境構築の容易さや利活用のしやすさを目指して、よりコンパクトで高性能、かつアプリケーションとの親和性の高いLMMを開発した。あわせて、4bit量子化モデルも提供する。
なお、今回の開発にあたっては、文字、円グラフ、棒グラフ、フローチャートなど、ビジネス文書で活用される視覚データ約60万枚を自社で開発したチューニングデータとして利用し、LMMに学習させているという。リコーでは、視覚情報とテキスト情報の双方を活用する日本語の質問応答データセット「JDocQA」などのベンチマークツールを用いて検証した結果、他のモデルと比較しても優れた性能を示すことを確認したとしている。
新モデルは、顧客の要望に応じた個別提供が可能なほか、今後、「RICOH オンプレLLMスターターキット」に搭載し、リコージャパン株式会社が提供する予定とのこと。