我们响应 April Dream,这是一个将 4 月 1 日作为传达梦想之日的倡议。本新闻稿是 Compalyze 株式会社的梦想。 营运企业信息数据库「Compalyze」的 Compalyze 株式会社(滋贺县草津市,代表董事:铃木隆士),在 4 月 1 日的「April Dream」之际,声明我们想要实现的梦想。 ## 试着问问 AI。它应该「无法回答」。 你可以试着问 ChatGPT、Claude 或 Gemini。请这样问: 「请告诉我滋贺县拥有食品相关许可,且最新财报为盈余的制造业。」 你可能不会得到准确的答案。它可能会列出一些看似合理的公司名称,但有无许可只是猜测,财务数字没有来源,甚至有时还会混入根本不存在的企业。 这不是因为 AI 不够成熟。而是因为 AI 可以参考的「正确数据」根本就不存在。 ## 企业数据「存在」。但是零散且无法读取。 关于日本企业的信息,实际上数量庞大。问题在于它们散落在不同的地方、格式各异、更新频率也不同。 登记信息在法务局。财务公告在官报。专利和商标在特许厅。许可证则分散在各个省厅——厚生劳动省、国土交通省、农林水产省。而且,法务局的登记是 PDF,官报的财务公告是图片文件,各省厅的许可登记簿则是 Excel 或 CSV,根本没有统一的格式。 换句话说,数据不是「没有」,而是「处于无法使用的状态」。这正是 AI 无法正确回答关于日本企业问题的根本原因。 ## 承接 AI 做不到的、吃力不讨好的工作 Compalyze 每天致力于进行的,就是将这些「无法使用的数据」打磨成「AI 可以信任的品质」。 这项工作的内容,令人惊讶地朴实且吃力不讨好。 使用 OCR 读取刊登在官报上的财务公告 PDF,并将数字转换为结构化数据。从登记受理簿中正确区分并分类「债权转让」和「债权人保护进程」。追踪地址变更和商号变更的历史,以准确集成同一法人的信息。区分休眠公司和营业中的公司。将散落在 5 个以上省厅的许可数据与单一法人编号链接。然后,通过多个来源比对「这些财务数据是真的吗?」。 这项工作没有捷径。这是一个不能完全交给 AI,且人类的策展不可或缺的领域。目前,Compalyze 的数据库已达到 90 个数据表、数千万笔纪录。无论是否上市,这都是一份由来源明确的第一手信息组成的企业「正确履历」——包含登记、财务结果、员工人数趋势、新闻和许可证。 AI 很聪明。但是,如果没有数据可以吸收,它就什么也答不出来。而且,如果吸收了垃圾,它就会给出垃圾。Compalyze 创造了一个「AI 可以吸收可靠数据」的状态。