Data Analytics Lab株式会社(总部:东京都中央区,代表董事:近藤 雅彦,以下简称「本公司」)宣布,已汇整关于生成式AI语音内容判定技术的研究成果。此为Evixar株式会社(以下简称「Evixar」)获总务省「互联网假・误信息等防范技术之开发与实证事业」采用的项目中,双方共同进行之研究的一环。 本研究融合了Evixar的音频信号处理技术与本公司的AI・数据分析技术,目的在于提升防范因生成式AI高度化而日益严重的假・误信息(如深伪等)的对策技术。 ■ 研究成果概要 本研究中,我们重现并分析了生成式AI语音内容的特性,建置了用于判定合成语音的验证数据以及AI模型的验证环境。 ■ 主要成果 ① 建置支持多样化语音生成模型的验证平台 为了分析包含日语在内的合成语音,我们调查并比较了以下先进的语音生成模型: ・Tortoise ・XTTS(多语言对应模型) ・Qwen3-TTS 并针对多种生成方式进行了验证。 特别是通过支持如XTTS等基于多语言及大规模学习的语音生成技术,我们在接近真实生成式AI环境的条件下进行了验证。 ② 合成语音数据的系统化生成与特征截取分析 在本研究中,我们实施了: ・合成语音数据生成条件的整理与系统化 ・音频信号(频谱图等)的解析 ・提取与自然语音的结构性差异 并致力于定量掌握合成语音的特性。 借此,我们致力于不依赖特定生成模型的通用判定技术的研发工作。 ③ 利用深度学习验证合成语音判定模型 关于生成语音的判定,我们: ・调查并验证了深度学习模型 ・建置学习用数据集 ・整备判定准确度的评估流程 并在一定程度上确认了利用AI语音特有特征之判定模型的有效性。 ④ 通过音频信号处理与AI的融合提升技术高度 在本研究中,我们将Evixar拥有的音频信号处理技术与本公司的AI技术相结合,以支持强化Evixar的合成语音判定系统(EAF)的验证工作。具体而言,我们: ・生成合成语音数据并验证多样化生成模型的运作 ・通过音频信号的特征解析掌握合成语音与自然语音的差异 ・使用深度学习模型验证判定准确度并建置评估数据集 并致力于提供技术见解以提升EAF的判定准确度。 ■ 本研究的定位 本研究是在Evixar株式会社主导并获总务省事业采用的项目中推动,由该公司负责音频信号处理及AI防范技术的开发,而本公司则负责数据设计、解析及验证领域。 本公司特别负责: ・合成语音数据的生成与设计 ・语音数据的解析与特征截取 ・判定模型的验证及评估平台的建置 并在此...