听觉研究所株式会社(总部:岐阜县岐阜市东荣町 1-5,代表取缔役:清水浩子)将于 2026 年 4 月 13 日推出全新的即时语音辨识系统「TeamLog」。本系统采用多个麦克风的独特机制,支持最多 9 人的同时语音转录,并能在 80dB 的噪音环境下实现高准确度,同时还能支持多种语言混合的对话即时翻译。 目前,公司正致力于结合 PC 屏幕阅读软件,为听障人士提供更可靠的信息支持,并通过提高翻译准确度来协助日语非母语的外籍学童就学。 ■ 起源于 COVID-19 的首次语音辨识研究 听觉研究所株式会社的前身是「岐阜县听障儿童家长会」,成立于 1993 年。这源于一群听障儿童的父母为了自己孩子的发展、听力、助听器研究等所做的努力,这也是我们的根源。 我们开始语音辨识研究的契机正是「COVID-19」疫情期间。虽然 COVID-19 疫情让许多人陷入困境,但对于听障人士来说,由于大家都戴上了口罩,导致严重的沟通障碍。对于将对方口型作为听力辅助的听障人士而言,口罩屏蔽口部几乎是致命的大问题。 「完全听不清对话」、「购物也变得异常困难」、「无法要求对方摘下口罩,真不知道该怎么办」 我们收到了许多这样的声音,希望能尽力解决这个问题,于是开始着手研究能够将声音转换为文本的语音辨识技术。 ■ 过去语音辨识的严重问题 尽管基于上述背景展开了语音辨识的研究,但越深入研究,其难度就越显现出来。语音辨识难免会出现误识别,但听障人士无法通过自己的耳朵来确认这些误识别,一旦出现一点点错误,就可能导致无法理解对话。 此外,大多数文本转录工具都依赖智能型手机等内置麦克风进行文本转录,因此在听障人士常感困扰的「周围环境嘈杂」或「多人交谈场合」,其他声音的干扰常导致语音辨识无法正常运作。 ■ 专利申请中的独特机制 TeamLog 通过使用多个指向性麦克风的独特结构,解决了以往的难题。 为每个人分配麦克风,同时显示说话者姓名和辨识结果 确保只拾取该人的声音,不受同时发话或噪音的影响 Ⅰ 最多 9 人同时语音转录 通过使用多个麦克风,支持最多 9 人的同时语音转录。即使在发言重叠或对话被打断的情况下,也能转录所有发言;并且通过为麦克风命名,实现了「谁说了什么」一目了然的设计。 Ⅱ 高辨识率及对专业术语的支持 采用高精度的语音辨识引擎,不仅实现了高准确度,还通过创建单词词典来支持专业术语和人名。此外,还搭载了医疗、金融等专业引擎,即使在高度专业化的会议中也能进行高精度的语音转录。 Ⅲ 在超过 80dB 的噪音环境下,准确度也不会下降 采用了高指向性麦克风,成功将噪音和周围人声的影响降至最低。无论是在噪音震天的建筑工地,还是在隔壁有人大声说话的咖啡厅或居酒屋等场所,语音转录准确度几乎不受影响。 ■ 目前亦着力于支持外籍学童 目前,公司也正积极投入支持国内急剧增加的「日语非母语的外籍学童」的就学事宜。现有的文本转录工具在充斥着各种声音的教室环境中,辨识准确度始终难以提升,但 TeamLog 则能在此环境下实现高准确度的文本转录。 凭借其高辨识率,公司目前仍在持续开发及验证,以实现即时翻译成各种语言的能力。 ■ 也可用于会议记录与同步口译 TeamLog 最初是为了听障人士的信息支持而开发,但我们也赋予了它作为会议记录和同步翻译工具的功能,使其对更多人来说更加便利。因为如果仅对听障人士有益,它可能只会变成「由听障人士请求才能导入」的工具。 在现今时代,由于合理协助义务化的推行,残障人士的需求更容易被企业等所接受。然而,语音辨识在成本和安全性方面存在较高门槛,若仅以支持残障人士为目的,则常常难以导入。 因此,我们通过结合对企业等来说便利的功能与高度的安全性,进行了多方面的创新,以期使其成为对企业和组织都有效率的服务。 功能列表 ◇ 所有辨识结果均在本机保存,确保安全性 ◇ 可输出为 CSV 或 PDF 格式,亦可作为会议记录使用 ◇ 无记录或通信的脱机辨识功能(预计开发中) ◇ 同步口译功能,可同时辨识、翻译多种语言 ◇ 通过即时修正,实现 100% 的语音转录准确度 ◇ 共享功能,可即时显示于其他设备 ◇ 在共享的终端设备上翻译成用户偏好的语言 通过这些功能,我们期望打造一个能让更多人使用的系统。 ■ 费用设置 TeamLog 语音辨识系统的费用设置如下: 〇 企业方案 初期费用:无 基本费用:10,000 日圆/月 + 语音辨识引擎使用费(依使用量计价) 〇 个人方案 初期费用:无 基本费用:1,000 日圆/月 + 语音辨识引擎使用费(依使用量计价) 〇 支持方案 适用对象:持有身心障碍手册的听障人士或听障人士支持团体 初期费用:无 个人・企业方案的费用可享一定金额折扣 ※ 目前仅提供 iOS 版本(Android 和 PC 版本正在开发中) ※ 语音辨识引擎使用费(