Turing股份有限公司(东京都大田区,代表取缔役:山本一成,以下简称「Turing」)宣布,在面向自动驾驶的实体AI——VLA(Vision-Language-Action,视觉-语言-动作)模型领域,成为国内首家(※1)实现于公开道路进行即时控制与行驶的企业。此外,公司同步公开了因果推论数据集「RACER」及影像分词器「DriveTiTok」。 本次开发是日本经济产业省/NEDO生成式AI研究支持计划「后5G信息通信系统基础强化研究开发事业/具竞争力之生成式AI基础模型开发(GENIAC)」的一环。所建构的部分数据集及开发完成的预训练模型已于Hugging Face上公开。此外,开发过程中获得的技术洞见也通过技术博客对外发表,持续推动产业界及学术界自动驾驶技术的发展。 ※1:本公司自行调查,2026年3月调查,依据公开信息,为国内以VLA模型进行公开道路即时推论之自动驾驶控制的案例 关于VLA模型的即时控制 VLA模型集成来自摄影机的视觉信息与语言情境理解,预测并输出相当于车辆转向、加减速的驾驶行为。与以往以影像和传感器数据为内核训练的端对端自动驾驶模型不同,其特点在于采用以语言模型为基础的集成式决策架构。 此次,Turing自主训练了约20亿参数规模的VLA模型,并针对车载计算机环境进行优化,实现了于公开道路的自动驾驶控制。以10Hz(每秒10次)的频率同时运行即时推论与车辆控制,并确认了在实际环境中稳定的自动驾驶性能。 Turing自2023年起,持续致力于以语言模型为基础的自动驾驶技术研究开发。本次成果是其延伸,未来将朝着实现国产实体AI的目标,进一步加速技术开发及社会落地。 技术博客: https://zenn.dev/turing_motors/articles/f5e44178d78153 YouTube:VLA Model DriveHeron / Turing股份有限公司 因果推论数据集「RACER...