カラクリ株式会社(总部:东京都中央区,代表取缔役 CEO:小田志门,以下称カラクリ)宣布,已开发出一款只需拍摄视频即可自动化 PC 业务的 AI 应用程序,并在株式会社 TENTIAL(以下称 TENTIAL)的客服现场实证实验中,确认每年约可削减 200 小时业务工时。 本应用程序由 Google 的大型语言模型「Gemini」,以及カラクリ以 Qwen2.5-VL 为基础、在 GENIAC 第 3 期中独自开发的国产视觉语言模型「KARAKURI VL2」组合而成。 开发背景 日本国内客服中心市场规模约为 1 兆日圆(注),客服现场日常需要分别使用 CRM、电子邮件、聊天工具、内部知识库等多种工具来处理业务。虽然已有 RPA 等工具可自动化这类制式 PC 操作,但导入时必须由工程师创建情境流程、设置 API 串接,因此一直难以由现场主导推动自动化。 カラクリ基于「像教新人一样教 AI」的概念,开发出即使没有程序知识,也只要拍摄业务视频就能开始自动化的 AI 应用程序。 注:引用自矢野经济研究所《2025 Call Center Market Overview: Services & Solutions》。 「只要拍视频」的 3 个步骤 步骤 1:拍摄业务流程 一边录制屏幕,一边用口头说明想要自动化的业务操作内容。就像教新进员工工作一样,只要照平常方式操作即可。 步骤 2:自动生成操作手册 Google 的大型语言模型「Gemini」会分析拍摄视频,并自动创建操作流程手册。它会集成理解视频中的画面转换与语音说明,转换成可重现的操作步骤。 步骤 3:AI 自主运行业务 カラクリ自行开发的国产视觉语言模型「KARAKURI VL2」会根据生成的操作手册,在辨识 PC 画面的同时自主运行操作。 初始设置所需时间约 15 分钟,包含业务视频的拍摄与上传。 TENTIAL 实证实验:15 分钟设置,每年削减 200 小时业务工时 在与 TENTIAL 的实证实验中,カラクリ针对客服业务中的「询问案件分类作业」进行验证。対象业务为询问案件分类作业,初始设置包含业务视频拍摄与上传,约需 15 分钟,削减效果为每年约 200 小时。 技术架构:优化组合多种 AI 技术的架构 本应用程序是由カラクリ设计与开发的解决方案,依照各流程组合最适合的 AI 技术。操作手册自动生成由 Google Gemini 负责,用于分析视频并自动创建操作流程手册;PC 操作自主运行由 KARAKURI VL2 负责,用于根据手册辨识 PC 画面并自主操作;整体应用程序则由カラクリ负责解决方案设计、开发与 UI 建构。 KARAKURI VL2 的主要特色包括:这是カラクリ在获选经济产业省 GENIAC 第 3 期后开发的国产视觉语言模型;采用 8B(80 亿)参数的轻量设计,可在本机环境中运作;具备辨识 PC 画面并自主运行操作的能力;可在不将机密数据发送到外部的情况下运用,因此也能对应安全要求严格的环境。 未来展望 カラクリ将推动以 KARAKURI VL2 为基础的 AI Agent 应用程序服务化。未来将以客服领域为起点,将适用范围扩大到包含旧有系统在内的多个应用程序之间的操作自动化,目标是通过「像教人一样教 AI」,实现能自动化所有 PC 业务的世界。 公司概要 カラクリ以「FriendlyTechnology」为愿景,是一家致力于将大型语言模型(LLM)实用化于客服支持的 AI 新创公司。自 2018 年起开始研究 Transformer 模型 BERT,并自 2022 年起投入包含 GPT 在内的大型语言模型研究。该公司 SaaS 事业提供的客服支持 AI 系列,持续获得高岛屋、SBI 证券、7-Eleven Japan、星野 Resorts 等各产业领导企业采用。 主要实绩包括:2018 年 ICC Summit「Startup Catapult」获奖;2020 年获选 Google for Startups Accelerator 2020;2022 年获选 Google for Startups Growth Academy Tech 2022;2023 年获选 AWS LLM 开发支持计划;2024 年获认定为生成式 AI 实用化推进计划;2024 年参加 Meta 完全邀请制生成式 AI 开发者会议;2024 年获选经济产业省「GENIAC」。 地址:〒104-0045 东京都中央区筑地 2-7-3 Camel 筑地 II 设立:2016 年 10 月 3 日 代表者:代表取缔役 CEO 小田志门 事业内容:开发、提供与营运客服支持特化型 AI「KARAKURI」系列等 URL:https://about.karakuri.ai/