AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库

AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库
文章来源:数据堂
网址:https://www.datatang.com/

前言:
近年来,深度学习在语音识别领域取得了突破性进展,现在,几乎所有的语音技术研究都直接或间接采用神经网络模型,语音识别准确率得到了明显提升,并推动语音识别技术广泛应用到人们的日常生活中。这得益于算法的持续创新和算力的不断提升。不同于统计学习模型,神经网络模型的训练需要更大规模的数据来驱动。然而,绝大多数中文语音数据集是商用的,其费用之昂贵使许多对中文语音识别感兴趣的研究人员望而却步,导致许多创新的想法得不到很好地验证。

“数据开源”极大地缓解了因数据集过于昂贵而无法获取的问题,同时吸引了越来越多的人员进行中文语音识别相关方面的研究。

近日,数据堂发表的一篇,名为“AIDATATANG_1505ZH: A Large-Scale Chinese Speech Corpus for Deep Learning(AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库)”被ACL 2020会议录用,并得到了会议邀请。受到了广大科研人员的一致好评。
AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库_第1张图片

语音识别模型的进一步优化需要更大规模标定数据的驱动,然而,目前开源的语音数据集规模仍太小,语料多为偏向书面用语的新闻类长文本。数据堂发表的该篇论文针对人机交互、智能客服等热门语音识别应用,构建并开源了迄今为止最大规模的中文普通话语音数据集 AIDATATANG_1505ZH。

论文主要介绍了一个新的大规模开源中文语音数据集 AIDATATANG_1505ZH,详细描述了数据集设计及制作的过程。对语料设计(语料采集、语料清洗、语料评分、语料配平) 、录制人员、录制场景、语音标注,以及数据集中含有文件等均进行了详细讲解。最终制作而成的该数据集包含了 6408 位说话人,录音时长达 1505 小时,标注准确率达 98%,覆盖主流移动设备,采集标签信息达 30 项,可广泛用于语音识别、声纹识别、 说话人质量评估、语料库语言学、会话分析、二语习得、语言类型学等研究。

为了验证 AIDATATANG_1505ZH 数据集的品质,该论文详细介绍了在 Kaldi 上开发了一套语音识别基准实验。并对比了目前与其同规模中文语音数据集的语音识别效果,从而验证了所述数据集的品质。实验结果表明:相较于同规模中文语音数据集,基于此数据集训练的语音识别模型效果更好。

同时,该篇论文的结尾处,还验证了在该数据集的基础上增加了大量文本语料,进而训练出更通用的中文口语语言模型,进一步上提升了语音识别效果。
AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库_第2张图片
(图片来自论文内容)

该篇论文将有助于研究人员使用AIDATATANG_1505ZH数据集。为了更便于人们研究和使用,该中文语音识别模型也已开源,以推动中文语音识别技术的发展。

可以查看:《基于《Kaldi语音识别》技术及开源语音语料库分享》
地址:https://www.datatang.com/news/info/laboratory/203

完整版论文《AIDATATANG_1505ZH: A Large-Scale Chinese Speech
Corpus for Deep Learning(AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库)》全文,请私信联系!

你可能感兴趣的:(数据产品)