AI/DX 咨询公司 Defide 株式会社(总部:东京都港区赤坂 2-4-6;代表董事:山本 哲也)宣布,其提供的 RAG 型 AI 聊天机器人「chai+」已取得专利第 7851525 号「针对用户提问搜索文档并回答之程序」。 本专利技术是一套独特的混合搜索引擎,结合了:① 矢量搜索(语义相似度)、② 关键字搜索(标记比对)、③ 语义重排序三种搜索方法。作为 chai+ 的内核技术,它被认定能同时解决单一搜索方法无法避免的遗漏与「幻觉」(AI 事实错误)问题。 ■ 开发背景|为何生成式 AI 常被说「难以使用」 以 ChatGPT 为代表的通用型生成式 AI 存在一个根本限制,即无法将企业固有信息(内部规定、产品手册、合约、FAQ 等)用于回答。此外,即使导入 RAG,仅依靠单一矢量搜索的配置也常会出现「语义接近但内容不对」的情况,或在包含专业术语、固有名词的提问中,回答精度大幅下降。 ▶ 传统型 RAG 的三大极限: ① 仅靠矢量搜索,对包含专业术语、固有名词的提问精度低。 ② 仅靠关键字搜索,在说法不同的提问中无法匹配相关文档。 ③ 搜索精度不足是导致「幻觉」(AI 事实错误、编造)的直接原因。 为了从根本上消除这些瓶颈,研发出了本次取得专利的三阶段混合搜索引擎。 ■ 专利第 7851525 号|三阶段混合搜索引擎的机制 发明名称:针对用户提问搜索文档并回答之程序 专利信息(J-PlatPat):https://www.j-platpat.inpit.go.jp/c1801/PU/JP-7851525/15/ja 本专利的核在于将文档以页面为单位切割成「块」(Chunk),并针对每个块并行构建「嵌入矢量(Embedding)」与「标记(关键字)」两种索引。每当有提问时,会经过三个搜索阶段选出最佳块,并向用户明示该块所属的原文档进行回答。 【搜索阶段】 第一步:矢量搜索(嵌入矢量) - 在矢量空间中高速搜索与问题语义相似的块。即使关键字不同,也能准确匹配「意义接近」的文档。 第二步:关键字搜索(标记/BM25等) - 以标记为基础搜索与问题关键字一致的块。覆盖语义搜索不擅长的专业术语、固有名词等表达。 第三步:语义重排序(相关度评分) - 集成第一、二步的结果,最终选出与问题语义相关度最高的块。通过三阶段过滤使回答精度最大化。 由于仅以经过三阶段搜索流程选出的块为根据生成回答,因此能从结构上抑制 AI 「不懂装懂」的幻觉发生风险。同时,通过向用户明示回答根据的文档,确保了回答的可靠性与透明度。 ■ 与传统型 RAG 及通用生成式 AI 的比较 - 搜索方式:传统型为单一(仅矢量);chai+ 为三阶段混合(专利技术)。 - 专业术语/固有名词:传统型会发生遗漏;chai+ 通过关键字搜索补足,目标是零遗漏。 - 幻觉:传统型频发;chai+ 仅使用基于公司文档的块,风险大幅降低。 - 回答根据:传统型为黑盒且来源不明;chai+ 明示搜索块对应的文档。 ■ 对企业 AI 应用的启示 ▶ 该专利技术解决的业务课题: - 内部规定、手册查找对应 —— 大幅缩减人事、法务、总务的查找工时。 - 基于产品规格、技术文档的支持 FAQ —— 实现抑制错误风险的高精度客户对应。 - 合约、签呈、报告的搜索与摘要 —— 从庞大内部文档中即时检索。