(资料图)
(晓东 于俊)近日,2023年国际顶级语音会议ASRU(IEEE Automatic Speech Recognition and Understanding,自动语音识别与理解)的多通道多方会议转录挑战赛()落下帷幕,喜马拉雅珠峰实验室摘得桂冠。
ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题。本次挑战赛是ASRU的重要赛事,旨在解决离线会议室中多人交谈、语音重叠的转录难题。
喜马拉雅并非首次参加ASRU的M2MeT挑战赛。在首届M2MeT挑战赛中,喜马拉雅与中国科学技术大学合作,在说话人日志赛道中荣获第三名,取得了仅有%日志错误率的成绩。
本届挑战赛包含了真实、多场景、多模态的大规模数据,涵盖了不同规模和布局的多种会议室,模拟了各种家具、不同主题的例会以及包括人声、电视声、风扇空调声、键盘声、开门/关门声、气泡声等重叠交错的室内噪音,增添了比赛的挑战性。
喜马拉雅珠峰实验室从语音识别基础框架出发,积累了混叠语音检测技术和说话人日志技术等方面的经验。通过使用麦克风阵列记录远场音频和耳机麦克风记录近场音频,确保了对应说话人的语音准确转录。最终,喜马拉雅在限定数据集和开放数据集两个子赛道上均取得了第一名的佳绩。
据介绍,喜马拉雅自动语音识别(ASR)等技术已广泛应用于其App的AI文稿功能,对无文稿的声音内容进行语音转写,并输出相应的文字,便于听众更好地理解声音内容。同时,对于已有原始文稿的声音内容,通过超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,实现声音播放与相应文字的同步高亮,让用户能够更便捷地享受边听边看的内容消费体验。
除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并广泛运用于评书、新闻、小说等多种内容的制作中,通过将自主设计单独的韵律提取模块融入到HiTTS 技术框架,完美复现了单田芳的“声音”。已用单田芳的AI合成音上线了超过100多张专辑,总播放量超过1亿。
喜马拉雅在AI语音技术领域深耕多年,其珠峰实验室长期专注于语音合成、情感分析、语音识别等领域的研究和创新。通过参与ASRU 2023年挑战赛并获得冠军,喜马拉雅进一步巩固了在语音技术领域的领先地位,并展示了在解决复杂语音场景下的出色能力。(完)
注:请在转载文章内容时务必注明出处!
编辑:于俊
关键词: