- 公开语音对应大型语言模型 (LLM)、即时语音对话、TTS 及视觉编码器等 4 款模型 - 视觉编码器无需使用现有模型,从零开始学习 株式会社 KRAFTON (代表理事 金昌汉) 发表了全新的 AI 模型品牌『Raon』(ラオン)。 该公司已在全球平台「Hugging Face」上开源了语音对应大型语言模型 (LLM)、即时语音对话模型、文本转语音模型 (TTS) 和视觉编码器 (图像特征提取模型) 等 4 款模型。 『Raon』这个品牌名称的灵感来自于韩语中意为「乐趣」的词语,也融入了 KRAFTON 公司名称中的部分字母。这反映了该公司希望通过 AI 技术创造游戏本质乐趣的哲学。 KRAFTON 凭借其从数据收集、模型学习到性能评估,能够运行基础模型开发所有流程的技术实力,公开了「Raon-Speech」、「Raon-SpeechChat」、「Raon-OpenTTS」和「Raon-VisionEncoder」这 4 款模型。未来,该公司将以『Raon』为内核,进一步强化其在全球 AI 技术领域的竞争力。 「Raon-Speech」是一款语音语言模型,它扩展了以文本为中心的语言模型,使其能够理解和生成语音,并确保了 90 亿个参数的规模。在所有小于 10B 的公开语音语言模型中,它在英语和韩语两方面都达到了全球最高水准的性能。这是通过综合评估语音识别、语音合成、基于语音的问答等 7 项主要任务和 40 个基准测试,并以相同权重反映各任务的平均排名所得出的结果。 「Raon-SpeechChat」是一款采用即时双向通信 (Full-duplex) 技术的语音语言模型,允许用户和模型在对话中自然地打断对方进行交互。这是韩国发布的第一款即时双向语音模型,在 3 种双向通信模型评估基准中,以打岔、中断处理、回应延迟时间等 13 项主要任务的平均排名为基础,展现了全球顶尖的性能。 「Raon-OpenTTS」是一款仅使用公开语音数据进行学习的文本转语音模型。对于过去难以利用的部分数据,KRAFTON 亲自收集、精炼并公开,同时也公开了整个学习数据,使得任何人都能在相同环境下重现学习。在人类盲测评估中,即使与使用非公开数据的全球研究用 TTS 模型相比,也达到了顶级的性能水平。 「Raon-VisionEncoder」是一款视觉编码器,能将图像转换为 AI 可理解的信息。它与语言模型结合后,就能处理视觉信息。其特点在于仅使用公开数据,不使用预训练模型,从零开始独立学习。在部分视觉识别任务中,它超越了 Google 具代表性的视觉编码器模型「SigLIP2」,在其他任务中也展现了超过 SigLIP2 90% 的性能。这项技术也将应用于 KRAFTON 的「独家 AI 基础模型」项目。 ■KRAFTON CAIO (首席 AI 负责人) 的评论 「本次公开的『Raon』模型系列,是本公司稳步积累 AI 技术实力的重要里程碑。通过开源大规模学习数据和内核模型,我们期望能为研究人员和开发人员提供自由利用的环境,为多模态技术的发展和韩国 AI 生态系统的成长做出贡献。」 KRAFTON 拥有从基础模型设计到 AI 代理,以及将实现全新游戏体验的 CPC (Co-Playable Character) 技术应用于游戏的全面 AI 技术开发能力。以此为基础,该公司于 2025 年推出了个人 AI 助理「KIRA」,并于 2026 年 3 月开源了提升 AI 代理性能的「Terminus-KIRA」技术。此外,KRAFTON 还通过像 CPC 这样基于 AI 的交互内容,致力于扩展全新的游戏体验。未来,该公司也将持续推进 AI 模型和 AI 代理技术的升级,引领技术创新。 ■关于 KRAFTON, Inc. 总部设于韩国的 KRAFTON, Inc. 拥有具备差异化创意的全球开发工作室,同时制作具备独特乐趣的游戏,并发掘具潜力的游戏 IP 并发行至全球。KRAFTON 通过超越预期的胆大想像力与技术,持续进行大胆挑战,旨在为全球游戏玩家创造难以忘怀的世界。 KRAFTON 于 2007 年成立,由「PUBG STUDIOS」、「Striking Distance Studios」、「Unknown Worlds」、「Neon Giant」、「KRAFTON Montréal Studio」、「Bluehole Studio」、「RisingWings」、「5minlab」、「Dreamotion」、「ReLU Games」、「Flyway Games」、「Tango Gameworks」、「inZOI Studio」、「JOFSOFT」、「Eleventh Hour Games」、「OmniCraft Labs」、「Olivetree Game