AI inside Corporation(代表取缔役社长CEO:渡久地 択,总部:东京都港区,以下简称「AI inside」)开发了一款能够同时处理人类对话与任务运行的全双工(Full-Duplex)语音交互模型。 此研究开发基于「一致性日语全双工语音多模态LLM的研究开发」这一研究主题,该主题已获经济产业省与国立研究开发法人新能源与产业技术综合开发机构(NEDO)为加强日本国内生成AI开发能力而实施的 GENIAC(Generative AI Accelerator Challenge)项目所采纳。 全双工语音交互模型的技术特征 ① 对话与业务运行的同步处理 — 全双工语音交互 本模型支持全双工语音交互,能够在用户说话途中捕捉意图,并立即开始回应生成与任务处理。与传统语音AI在说话结束后才开始处理不同,本模型在说话过程中即已推进处理。这实现了即时的对话回应。 闲聊 根据对话的热络程度,即时变换回应内容。 工作咨询 除了确认回应外,还能即时生成笑声等非语言表达。 旅游咨询 自然地控制插话的时机与强度,维持沉稳的对话。 ② 图像理解以识别眼前信息 实现了单一模型能集成处理图像、语音和文本的机制。在日语图像内容描述的评估中,与 Qwen3-8B-VL 相比,其解释精确度约提高了 6.1 倍。