语音识别入门知识

一.数据集:
比较常用的:aishell WenetSpeech THCHS30 libriSpeech
中文数据集有这些dbase aidatatang aishell magicdata primewords stcmds thchs
二.数据集特点总结:

1.Mozilla Common Voice:
开发时间早,宣称自己有最大的人类数据库,献者可以选择提供诸如他们的年龄、性别和口音等统计元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法,
下载地址:https://voice.mozilla.org/data
参考:Mozilla发布最大公共语音数据集Common Voice_LiveVideoStack_的博客-CSDN博客
https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/88266146

2.翻译和口语音频的大型数据库Tatoeba
语言学习的句子、翻译和口语音频的大型数据库,用户无须注册便可以搜索任何单词的例句,注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论(没有语言限制)
3.VOICES Dataset
除了基本的声音之外还有一些噪音,300个不同的说话人从LibriSpeech的“干净”的数据子集被选择源音频,确保男女比例均衡。特点是音频比较多,含有噪音。
4.LibriSpeech(很适合入门)
含文本+语音的有声读物 数据集,由Vassil Panaytov编写的语料库,其数据来源LibriVox
5.2000 HUB5 English:
仅包含英语的语音数据集
6.VoxForge:
英语数据集,可以提升不同的口语或语调鲁棒性的场景。(据说有很多免费录音)
7.VoxCeleb
来自于YouTube的大型人声数据集,比较平衡,含有两个子集: VoxCeleb1, VoxCeleb2
8.TIMIT
英语语音识别数据集,优点比较多,至今使用广泛:数据集中句子在音素都进行了手动标记(补充了很多信息),而且数据集比较小,可以在短时间内完成实验。
9.CHIME
噪音试用于语音识别挑战,它包含了训练集、验证集,测试集三部分,含有WAV文件。
10.Google AudioSet
大规模的音频数据集,128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的
11.AISHELL数据集
一个较为常用的中文数据集,语音质量很高

a. AISHELL开源版1
b. AISHELL-2 开源中文语音数据库
c. AISHELL-3 语音合成数据库
d.AISHELL-翻译机录制语音数据库
e.SISHELL—居家环境近远讲同步语音数据库
f.AISHELL-语音唤醒词数据库
12.Aiddataing数据集
a.aidatatang_1505zh(完整的1505小时中文普通话语音数据集)
b.Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)
可以免费使用,含有语音识别、机器翻译、声纹识别等语音相关领域的研究技术。
13.THTCHS30
入门级玩具级别数据库,数据库对学员完全免费
14.Wenet Speech
15.magicdata
16.primewords
17.stcmds
18.thchs

三.比较不错的简介(知乎):https://zhuanlan.zhihu.com/p/267372288
四.课程:Python机器学习(北京理工大学)

ps:目前我也在是初步尝试语音识别内容,此篇入门好用信息会慢慢更新

你可能感兴趣的:(PYTHON,语音识别,人工智能)