理光在「GENIAC」第三期开发出具备推理性能的多模态大型语言模型

Q: What are the key facts in this article?

理光在经济产业省和NEDO实施的「GENIAC（生成式AI加速挑战）」第三期项目中，开发出具备推理性能的多模态大型语言模型「Qwen3-VL-Ricoh-32B-20260227」，能够高精度地读取包含图表的复杂文档。基于此技术的轻量级模型「Qwen3-VL-Ricoh-8B-20260227」已免费公开，旨在提高企业内部知识利用效率。

Q: What is the direct answer?

理光在经济产业省和NEDO实施的「GENIAC（生成式AI加速挑战）」第三期项目中，开发出具备推理性能的多模态大型语言模型「Qwen3-VL-Ricoh-32B-20260227」，能够高精度地读取包含图表的复杂文档。基于此技术的轻量级模型「Qwen3-VL-Ricoh-8B-20260227」已免费公开，旨在提高企业内部知识利用效率。

Q: What is the source and date?

Source: AI News by Washin Village | Date: Date unavailable

株式会社理光（社长运行董事：大山晃）宣布，在经济产业省和国立研究开发法人新能源产业技术综合开发机构（NEDO）实施的、旨在强化日本国内生成式AI开发能力的项目「GENIAC（Generative AI Accelerator Challenge）*1」第三期中，已完成开发具备推理性能*2的多模态大型语言模型（以下简称推理LMM）的基本模型「Qwen3-VL-Ricoh-32B-20260227」。该模型能够高精度地读取包含图表在内的多样化文档，其特点是通过多阶段推论理解复杂文档。 此外，我们将从即日起免费公开利用本模型开发技术的轻量级模型「Qwen3-VL-Ricoh-8B-20260227」。同时，理光独自开发的、专门用于评估推理性能的基准测试工具*3也将在未来公开。 【公开链接】 https://huggingface.co/ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227 **1. 项目背景与社会课题** LMM（大型多模态模型）是一种能够同时处理文本、图像、音频、视频等多种类型数据的AI技术。由于其在从屏幕截屏中提取文本摘要、回答包含图表的提问等多种任务中表现出高水准的性能，因此作为能够处理广泛数据格式的AI，备受期待。 企业内部累积了多样化的文档，包括发票、收据等交易数据，事业战略和计划等经营数据，服务手册和内部制定的技术标准、品质管理标准等。这些文档不仅包含文本，还包含图形、表格和图像等。人们期望能够在企业内部高效利用这些文档，并通过它们创造新的价值和创新。另一方面，也存在「文本搜索无法获得预期结果」、「仅靠搜索功能难以充分利用文档」等课题。 此外，近年来，为应对劳动力减少而采取的有效工作方式、资深员工退休带来的技能传承、以及外籍劳工增加导致的文档多语言化等经营课题，都提出了相应的解决需求。在这种背景下，通过AI高效利用企业内部知识的需求日益增长。 理光在2024年8月实施的GENIAC第二期中，开发了700亿参数的LMM，并免费公开了其基本模型和独自开发的基准测试工具。此外，在2026年1月，理光还开发了基于中国阿里巴巴云开发和提供的大型语言模型（LLM）家族「Qwen2.5-VL-32B-Instruct」的320亿参数紧凑型LMM。 **2. 本次成果** 在第三期中，我们以「Qwen3-VL-32B-Instruct*4」为基础，开发了通过多阶段推论高精度理解复杂文档的推理LMM基本模型「Qwen3-VL-Ricoh-32B-20260227」。本模型通过强化学习*5和课程学习*6等学习方法的创新，能够关联并理解跨越多页的图表，即使对于阅读理解难度高的问题，也能生成高精度的答案。在强化学习中，我们设置了独特的奖励函数，在提高学习效率的同时抑制过度拟合。在课程学习中，我们优化了难度设置和学习进度。 通过这些努力，我们确认了与「Gemini2.5-Pro」等大型商业模型同等的基准测试结果（截至2026年2月17日）。为了评估本模型的推理性能，理光独自开发了基准测试工具。