我们很高兴宣布,致力于开发国产多模态 AI 的 KARAKURI Co., Ltd.(总公司:东京都中央区,代表董事兼 CEO:小田志门,以下简称「KARAKURI」),与丰田集团主要企业 JTEKT Corporation(总公司:爱知县刈谷市,董事长兼总经理:近藤祯人,以下简称「JTEKT」),以及全球 AI 企业 Upstage AI Co., Ltd.(总公司:东京都港区,代表董事:松下纮之,以下简称「Upstage」)共同获选由 Amazon Web Services Japan G.K.(以下简称「AWS 日本」)提供的「AWS 日本物理 AI 开发支持计划」。 通过获选此计划,三家公司将验证物理 AI 在制造业中的应用潜力,并旨在 JTEKT 的工厂中实现自主适应型生产系统的社会实施。 获选背景与本项目意义 日本制造业虽然拥有世界顶尖的技术实力,却面临着严重的劳动力短缺和熟练技工技能传承的结构性问题。特别是机器人控制中的「示教(高端编程)」负担沉重,成为阻碍现场灵活运用的障碍。本项目旨在结合 KARAKURI 的「LLM/高端意图理解」技术、Upstage 的「将非结构化数据转化为 AI 可用数据结构的技术」,以及 JTEKT「在制造现场累积的丰富知识」,目标是实现即使没有专业知识也能通过「语言」和「视觉信息」直观操作机器人的日本原创物理 AI。 KARAKURI 进军物理 AI 的理由 — 从「客户支持」到「物理 AI」的技术转用 KARAKURI 进军物理 AI 领域的背景,在于该公司为客户支持开发的电脑操作代理(CUA)模型与用于机器人控制的视觉-语言-动作(VLA)模型之间存在高度的技术亲和性。 CUA 模型机制 :识别屏幕上的图像,并根据用户的自然语言指令,自主生成「将鼠标移动到哪个座标,点击什么」的动作。 与 VLA 模型的共通点 :「看到图像(Vision),通过语言(Language)理解,并生成动作(Action)」的过程,本质上与 CUA 模型具有相同的结构。 通过这项技术转用,以下 3 个重点将加速物理 AI 的开发: 意图理解技术 在客户支持领域磨练出的,从模糊指令中汲取真实意图的技术。这直接链接到制造现场对「把那个搬到那边」等直观指令的理解。 图像・空间识别 将掌握屏幕上元素的技术应用于制造线的即时状况掌握。也可利用 CG 合成数据进行高效学习。 高效训练 凭借在 AWS Trainium 应用方面世界顶尖的技术实力,即使资源有限也能开发出高性能模型。 三方合作体制与各公司角色 本项目中,三家各具优势的公司将携手合作,推动物理 AI 在制造现场的社会实施。 JTEKT(实证场域) 提供制造现场与领域知识。提取实际制造在线的问题并提供实证环境。 Upstage(模型开发支持) 将现场的「非结构化数据」转换为 AI 可处理的形式。基于 LLM 开发知识的技术支持与数据资产化。 KARAKURI(AI 模型开发) 以 CUA/VLA 模型技术为基础开发机器人控制 AI。提供利用 AWS Trainium 的高效训练技术。 三家公司共同开发的内容 视觉语言动作(VLA)的应用 通过多模态生成 AI,集成学习和推论图像、语言和动作,实现复杂制造过程的自动化和优化。 通过虚拟空间高速学习(Sim2Real)减少原型制作成本 将仿真环境中的学习成果转移到实际环境中,大幅缩短 AI 模型开发成本和原型制作周期。 现场数据的资产化与 AI-Ready 化 将 JTEKT 工厂中累积的多样且高精度的数据,转换为 AI 可最大限度利用的形式,并创建基于现场数据的专用模型。 关于「AWS 日本物理 AI 开发支持计划」 「AWS 日本物理 AI 开发支持计划」是 AWS 日本针对在日本设有法人或据点的企业/团体实施的计划。该计划针对以 VLA 为首的机器人基础模型开发,提供技术支持、AWS 点数(计划总规模最高达 600 万美元)、物理 AI 社群的创建以及市场推广支持。支持期间为 2026 年 3 月起约 6 个月,预计于 7 月举行成果发表会。 URL: https://aws.amazon.com/jp/blogs/news/aws-japan-physical-ai-development-support-program/ JTEKT Corporation 创新本部 研究开发中心长 小野﨑 彻 评论 为了迅速应对日本少子高龄化导致的劳动年龄人口减少问题,我认为现在正是将 JTEKT 累积的「匠人技艺」和「现场知识」升华为物理 AI 的时候。 在汽车零件、轴承、工具机的制造现场,累积了大量由熟练技术人员的经验、直觉和诀窍所支持的隐性知识。然而,其中许多即使通过数字力量,也尚未充分形式化。 通过结合 Up