从上传的音频中推测最初被用来训练的声优 Parakeet 株式会社(总公司:福岛县双叶郡广野町,代表取缔役:中村泰贵,以下简称「本公司」)已在 Hugging Face 上免费公开了说话者识别模型「Paramatch(パラマッチ)」的展示版。本模型是一款说话者识别 AI,当用户上传音频文件时,它会预测并分析音质最接近的说话者。 其开发目的是为了从未经授权训练的 AI 语音合成模型所产出的音频中,获取找出原声主人的线索。 ▼ 展示网址 https://huggingface.co/spaces/Parakeet-Inc/paramatch ■ 开发背景:为了保护名为「声音」的身分认同 近年来,随着 AI 语音合成技术的快速发展,未经授权擅自使用声优声音进行训练的模型,或使用该模型生成的合成语音,在社群媒体与视频平台上被公开散播的案例层出不穷。 这里重要的是要准确掌握问题的本质。根据日本著作权法第 30 条之 4,为了 AI 信息分析目的而进行的训练本身是被广泛认可的。个人为了自我娱乐而训练语音并仅供自己使用的行为,原则上不会产生法律问题。 然而,散布或公开未经授权训练的 AI 语音合成模型本身、提供第三方能以特定声优声音自由发话的状态,或是将以该声优声音生成的合成语音本身公开散播的行为,则是截然不同的问题。这些行为威胁了声优与演员们通过长年钻研所创建起的「声音」身分认同,并严重侵害了表演者的权利。 声音是表演者独一无二的存在证明。声音脱离了本人的意志,被迫说出本人不知情的话语——面对这样的情况,我们身为参与音频技术研发的人员,不断自问我们能做些什么。Paramatch 就是其中一个答案。 ■ 什么是 Paramatch Paramatch 是由本公司开发的说话者识别 AI 模型。针对上传的音频文件,它会从说话者数据库中预测出音质最接近的前三名说话者,并以分数呈现各自的相似度。这让人们能获得客观的线索,以找出某个合成语音是「基于谁的声音所生成」的。 【主要特色】 ・从说话者数据库中预测相似的说话者 ・支持长度在 30 秒以下的音频文件 上传的音频不会保存在服务器上,也绝对不会进行二次利用。此外,训练数据仅用于建构 Paramatch 模型。我们绝不将其转用于语音合成等生成模型,或本公司的其他产品与项目。 请注意,本工具的结果仅供参考,不能作为法律判断的依据。此外,识别准确度并非完美,我们今后也将持续进行改良。 公开此展示版的目的主要有两个。 第一,是以实证为基础,验证保护表演者身分认同——即「声音」权利的有效对策。我们希望与业界各位共同确认,这项技术针对实际的违规案例能发挥多大效用,而非纸上谈兵。 第二,是将其作为与声优、演员、所属经纪公司及权利人团体对话的起点。虽然我们是一家开发 AI 音频技术的企业,但正因如此,我们不能对这项技术遭到滥用的现实视而不见。作为技术开发方的责任,我们希望能认真投入保护声音的技术。 ■ 致各位声优、演员与业界团体:我们正在寻找共同努力的伙伴 我们不打算让 Paramatch 仅止于一个单纯的「公开展示版」。为了认真将这项技术落实于社会,每天在现场面对「声音」的声优与演员们,以及保护其权利的经纪公司和业界团体的专业知识是不可或缺的。 具体来说,我们希望能在以下方面获得您的协助: ・针对实际违规案例验证 Paramatch 的有效性 ・为提升说话者数据库准确度的咨询 ・探讨业界指南与权利