株式会社理光(社长运行董事:大山晃)宣布,在经济产业省和国立研究开发法人新能源产业技术综合开发机构(NEDO)实施的、旨在强化日本国内生成式AI开发能力的项目「GENIAC(Generative AI Accelerator Challenge)*1」第三期中,已完成开发具备推理性能*2的多模态大型语言模型(以下简称推理LMM)的基本模型「Qwen3-VL-Ricoh-32B-20260227」。该模型能够高精度地读取包含图表在内的多样化文档,其特点是通过多阶段推论理解复杂文档。 此外,我们将从即日起免费公开利用本模型开发技术的轻量级模型「Qwen3-VL-Ricoh-8B-20260227」。同时,理光独自开发的、专门用于评估推理性能的基准测试工具*3也将在未来公开。 【公开链接】 https://huggingface.co/ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227 **1. 项目背景与社会课题** LMM(大型多模态模型)是一种能够同时处理文本、图像、音频、视频等多种类型数据的AI技术。由于其在从屏幕截屏中提取文本摘要、回答包含图表的提问等多种任务中表现出高水准的性能,因此作为能够处理广泛数据格式的AI,备受期待。 企业内部累积了多样化的文档,包括发票、收据等交易数据,事业战略和计划等经营数据,服务手册和内部制定的技术标准、品质管理标准等。这些文档不仅包含文本,还包含图形、表格和图像等。人们期望能够在企业内部高效利用这些文档,并通过它们创造新的价值和创新。另一方面,也存在「文本搜索无法获得预期结果」、「仅靠搜索功能难以充分利用文档」等课题。 此外,近年来,为应对劳动力减少而采取的有效工作方式、资深员工退休带来的技能传承、以及外籍劳工增加导致的文档多语言化等经营课题,都提出了相应的解决需求。在这种背景下,通过AI高效利用企业内部知识的需求日益增长。 理光在2024年8月实施的GENIAC第二期中,开发了700亿参数的LMM,并免费公开了其基本模型和独自开发的基准测试工具。此外,在2026年1月,理光还开发了基于中国阿里巴巴云开发和提供的大型语言模型(LLM)家族「Qwen2.5-VL-32B-Instruct」的320亿参数紧凑型LMM。 **2. 本次成果** 在第三期中,我们以「Qwen3-VL-32B-Instruct*4」为基础,开发了通过多阶段推论高精度理解复杂文档的推理LMM基本模型「Qwen3-VL-Ricoh-32B-20260227」。本模型通过强化学习*5和课程学习*6等学习方法的创新,能够关联并理解跨越多页的图表,即使对于阅读理解难度高的问题,也能生成高精度的答案。在强化学习中,我们设置了独特的奖励函数,在提高学习效率的同时抑制过度拟合。在课程学习中,我们优化了难度设置和学习进度。 通过这些努力,我们确认了与「Gemini2.5-Pro」等大型商业模型同等的基准测试结果(截至2026年2月17日)。为了评估本模型的推理性能,理光独自开发了基准测试工具。