本文对转载内容有更改,不代表原作者
THCHS30 是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库,可以用于中文 语音识别 系统的开发。该数据集语音数据是在安静的办公室环境下录取的,总时长超过 30 个小时。采样频率 16kHz,采样大小 16bits。
这个数据集包含以下内容:
数据集 | 音频时长(h:mm) | 句子数 | 词数 |
---|---|---|---|
train | 25:00 | 10000 | 198252 |
dev | 2:14 | 893 | 17743 |
test | 6:15 | 2495 | 49085 |
还有训练好的语言模型word.3gram.lm和phone.3gram.lm以及相应的词典lexicon.txt。
组织人员介绍:https://www.openslr.org/18/
Dong Wang, Xuewei Zhang, Zhiyong Zhang
[email protected]
[email protected]
[email protected]
CSLT, Tsinghua University
ROOM1-303, BLDG FIT
Tsinghua University
http://cslt.org
http://cslt.riit.tsinghua.edu.cn
国外下载地址: http://www.openslr.org/resources/18/
国内及备份下载地址:https://static-public.chatopera.com/asr/resources/18/
data_thchs30.tgz [6.4G] ( speech data and transcripts )
thchs30数据量比较小,不需要GPU集群就可以快速完成训练
This is the data part of the THCHS30 2015
acoustic data
& scripts dataset.
The dataset is described in more detail in the paper THCHS-30 : A Free Chinese Speech Corpus
by Dong Wang, Xuewei Zhang.
A paper (if it can be called a paper) 13 years ago regarding the database:
Dong Wang, Dalei Wu, Xiaoyan Zhu, TCMSD: A new Chinese Continuous Speech Database
,
International Conference on Chinese Computing (ICCC’01), 2001, Singapore.
THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取的,总时长超过30个小时。大部分参与录音的人员是会说流利普通话的大学生。采样频率16kHz,采样大小16bits。
THCHS-30的文本选取自大容量的新闻,目的是为了扩充863语音库。我们选取1000句来录音。表1展示了双音素和三音素的涵盖率,从表中可以看出来THCHS-30的确提高了863数据库的发音涵盖率。
这些录音根据其文本内容分成了四部分,A(句子的ID是1 ~ 250),B(句子的ID是251 ~ 500),C(501 ~ 750),D(751~1000)。ABC三组包括30个人的10893句发音,用来做训练,D包括10个人的2496句发音,用来做测试。
The layout of this data pack is the following:
*.wav
audio data
*.wav.trn
transcriptions
{train,dev,test}
contain symlinks into the data
directory for both audio and
transcription files. Contents of these directories define the
train/dev/test split of the data.
{lm_word}
: word.3gram.lm
trigram LM based on word; lexicon.txt
, lexicon based on word
{lm_phone}
:phone.3gram.lm
trigram LM based on phone; lexicon.txt
lexicon based on phone
Statistics for the data are as follows:
=========== ========== ========== ===========
**dataset** **audio** **#sents** **#words**
=========== ========== ========== ===========
train 25 10.000 198,252
dev 2:14 893 17,743
test 6:15 2,495 49,085
=========== ========== ========== ===========
test-noise.tgz [1.9G] ( standard 0db noisy test data )
还有一些噪声条件下的语音可供使用。
This package involves standard 0db THCHS30 noisy test data.
For noisy data at other SNR levels, you can use the following
script:
utils/produce-noisy-data.sh
Note that the python module pyximport is recommend to
speed up the process of data generation.
resource.tgz [24M] ( supplementary resources, incl. lexicon for training data, noise samples )
some resouces for the Kaldi thchs30 recipe
dict : dictionary for words in the training data
noise: noise data for producing noisy training/dev/test data
为了帮助构建一个实用的中文ASR系统,一些附加的资源也随着THCHS-30发布了。这些资源包括发音词典,语言模型,训练方法和一些其他有用的工具。
发音词典
SIL sil
sil
啊 aa a1
啊 aa a2
SIL 1.0 sil
1.0 sil
啊 1.0 aa a1
啊 1.0 aa a2
啊 1.0 aa a4
啊 1.0 aa a5
啊啊啊 1.0 aa a2 aa a2 aa a2
啊啊啊 1.0 aa a5 aa a5 aa a5
sil
a1 ai1 an1 ang1 ao1 e1 ei1 en1 eng1 i1 ia1 ian1 iang1 iao1 ie1 in1 ing1 iong1 iu1 ix1 iy1 o1 ong1 ou1 u1 ua1 uai1 uan1 uang1 ueng1 ui1 un1 uo1 v1 van1 ve1 vn1
a2 ai2 an2 ang2 ao2 e2 ei2 en2 eng2 er2 i2 ia2 ian2 iang2 iao2 ie2 in2 ing2 iong2 iu2 ix2 iy2 o2 ong2 ou2 u2 ua2 uai2 uan2 uang2 ui2 un2 uo2 v2 van2 ve2 vn2
a3 ai3 an3 ang3 ao3 e3 ei3 en3 eng3 er3 i3 ia3 ian3 iang3 iao3 ie3 in3 ing3 iong3 iu3 ix3 iy3 o3 ong3 ou3 u3 ua3 uai3 uan3 uang3 ueng3 ui3 un3 uo3 v3 van3 ve3 vn3
a4 ai4 an4 ang4 ao4 e4 ei4 en4 eng4 er4 i4 ia4 ian4 iang4 iao4 ie4 in4 ing4 iong4 iu4 ix4 iy4 iz4 o4 ong4 ou4 u4 ua4 uai4 uan4 uang4 ueng4 ui4 un4 uo4 v4 van4 ve4 vn4
a5 ai5 an5 ang5 ao5 e5 ei5 en5 eng5 er5 i5 ia5 ian5 iang5 iao5 ie5 in5 ing5 iong5 iu5 ix5 iy5 iz5 o5 ong5 ou5 u5 ua5 uai5 uan5 uang5 ueng5 ui5 un5 uo5 v5 van5 ve5 vn5
aa b c ch d ee f g h ii j k l m n oo p q r s sh t uu vv x z zh
音素表
a1
a2
a3
a4
a5
aa
ai1
ai2
ai3
ai4
ai5
an1
an2
sil
sil