AISHELL-3语料库及格式解读

AISHELL-3希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)

声调的标记格式

采用数字1、2、3、4、5,代替《汉语拼音方案》中声调阴平(ˉ),阳平(ˊ),上声(ˇ),去声(ˋ),轻声(不标调)这几个标调符号

韵律的标记格式

韵律分成四级,分别用#4,#3,#2, #1表示。

#4 :

(1)一个完整语意的句子,切除前后可以独立成为一个句子,从听感上调形是完全降下来的,有明显的停顿。 (2)如果是以二声词结尾的短句,这个二声的词被拖长音,且与后面是转折的关系的,有明显的停顿。

#3 :

通常标在一个韵律短语后面,有时会是一个词,从听感上调形是降下来的,但不够完全,不能独立成为一个语意完整的句子。

#2 :

(1)表示被‘重读’的词或单个字(为了强调后面),有停顿,调形上有小的变化, 有‘骤停’的感觉。 (对于单音节词如果是被‘拖长音’,给#1;如果是‘骤停’要给#2 ) (2)并列关系的词如果被强调重读,给#2;如果是很平滑的,给#1。

#1 :

只是韵律词的边界,通常没有停顿

声韵母与停顿的标记格式

标注符号采用a,b,d,s四种标记符号进行标注,标注符号的意思如下:

  • a表示中文汉字的声母。
  • b表示中文汉字的韵母。
  • d表示句中的静音长度小于100ms的停顿。
  • s表示句子的起始点和结束点以及句中大于100ms的停顿。

声韵标注的具体规则

  1. 中文汉字拼音的声母用a表示,韵母用b表示。
  2. 其中有一些汉字音节以元音开头,称为零声母音节,如a/o/e/ang/eng/en/ai/ei/ao/ou/an/er/,我们用标记点a来进行标注。
  3. 其中有一些汉字是特殊读音,仅仅表示鼻子发出的气流,如m/n/ng/,分别对应汉字(呣,嗯,嗯),我们用标记点b来进行标注。
  4. 汉字发音为yu/yi/wu/的为整体认读音节,但我们此次把以w,y为声母加韵母的拼音按照声韵进行切分。

举一个例子

我#1就怕#2自己的#1俗气#3亵渎了#2普者黑的#1风景

wo3 jiu4 pa4 zi4 ji3 de5 su2 qi4 xie4 du2 le5 pu2 zhe3 hei1 de5 feng1 jing3

目前KAN-TTS支持两种类型的数据格式:阿里标准格式通用格式

其中阿里标准格式数据如下:

 
  

# 阿里标准格式数据 . ├── interval │ ├── 500001.interval │ ├── 500002.interval │ ├── 500003.interval │ ├── ... │ └── 600010.interval ├── prosody │ └── prosody.txt └── wav ├── 500001.wav ├── 500002.wav ├── ... └── 600010.wav

通用格式数据如下:

 
  

# 通用格式数据 . ├── prosody │ └── prosody.txt └── wav ├── 1.wav ├── 2.wav ├── ... └── 9000.wav

wav文件夹下存放了音频文件,prosody文件夹下的.txt文件对应的是音频文件的文本标注, interval文件夹下存放的是音素级别的时间戳标注,通常情况下通用格式数据不会携带时间戳标注,这是两种格式的区别。

如果您的数据不满足上述两种格式要求,请联系我们获取数据标注服务

 

 

你可能感兴趣的:(tts,语音识别,人工智能)