中文普通话语音识别开源数据集(持续更新)

中文普通话语音识别开源数据集,截止到2021.02.05

数据集 时长(h) 人数 标注准确率 下载链接 开源协议 备注
thchs30 30 40 - http://www.openslr.org/18/ Apache License v.2.0 -
Primewords_set1 100 296 >98% http://www.openslr.org/47/ CC BY-NC-ND 4.0 -
aishell1 178 400 >95% http://www.openslr.org/33/ Apache License v.2.0 -
ST-CMDS 122 855 - http://www.openslr.org/38/ CC BY-NC-ND 4.0 -
aishell2 1000 1991 >96% http://www.aishelltech.com/aishell_2 - 需要申请
aidatatang_200zh 200 600 >98% http://www.openslr.org/62/ CC BY-NC-ND 4.0 -
aidatatang_1505zh 1505 6408 >98% https://www.datatang.com/opensource CC BY-NC-ND 4.0 需要申请
Speechocean 10.33 20 >98% http://www.openslr.org/90/ CC BY-NC-ND 4.0 -
MAGICDATA 755 1080 >98% http://www.openslr.org/68/ CC BY-NC-ND 4.0 -
Common Voice 70 3333 - https://commonvoice.mozilla.org/zh-CN/datasets CC-0 mp3格式
aishell3 85 218 >98% http://www.openslr.org/93/ Apache License v.2.0  

 

 

你可能感兴趣的:(语音识别)