人工智能语音训练数据的制作方式?

语音数据指标解读

一、语音数据类型

按照话语的自然程度分类:

  1. 朗读式语音
  2. 对话式语音

按照信号频宽角度分类

  1. 手机信道语音
  2. 电话信道语音
  3. 桌面语音(高保真麦克风或阵列)

按照应用角度分类

  1. 基础识别数据
    基础语音识别能力的训练数据可分为:朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。

  2. 智能家居数据
    3000小时中国儿童语音数据
    797人低幼儿童中文语音数据
    220人美国儿童麦克风采集语音数据
    1044小时闽南语手机采集语音数据
    1032小时上海方言手机采集语音数据
    1000小时昆明方言手机采集语音数据
    ……

  3. 智能车载数据
    531小时麦克风手机采集车载噪音数据
    245小时车载环境普通话手机采集语音数据
    1,030小时中英混读手机采集语音数据
    ……

  4. 智能手机数据
    3125小时语音助手普通话实网采集语音数据
    200人中文唤醒词手机语音采集数据
    ……

  5. 智能会议数据
    1000小时普通话多人自然对话语音数据
    800小时美式英语语音数据-交互场景
    ……

  6. 智能客服数据
    2823小时普通话客服实网语音采集数据
    555小时全领域客服实网语音采集数据
    140小时电商客服普通话实网采集语音数据
    ……

二、语音数据制作要求

录音人的特征要求

  1. 性别:男女比例
  2. 年龄分布
  3. 方言区域分布
  4. 特殊发音人
  5. 语速
  6. 发音方式

质量要求

  1. 数据结构的完整性
  2. 数据量的完整性
  3. 语音的合格率
  4. 标注的合格率

三、 语音采集
①录音文本:

内容覆盖:
录音文本的选择要尽量贴合客户应用场景
数据堂语音数据的录音文本设计很有优势。
例如:通用类、交互类、家居命令类、车载命令类、数字类

句子重复率:
句子重复率越低越好,国内客户大多希望重复最多3次,国外客户容忍度高些
数据堂语音数据,大部分都是重复小于3次

②录音设备:

固定电话:办公电话、家庭电话
手机(通信设备):安卓系统、苹果系统手机
录音笔:手持式、非手持式
高保真麦克风:外接声卡、内置声卡
其他移动设备:智能语音录音设备

③录音环境:
安静室内、家居、车载、街景、车站、工厂
•通常的相对安静采集环境:不能有明显回音、不能有其他人说话声、没有电流声、没有持续噪音(空调声等)。
噪音DB值:
量化环境噪音的强度,可以用声压计测量。业内通常要求不超过40-50DB,我们18年开始做的数据基本都在40DB以内
信噪比:
量化说话人音量比环境噪音音量高出多少。业内通常要求大于10-20DB,我们的数据符合

④录音数据格式:
采样率:16KHz、22KHz、44.1KHz、48KHz
量化位数:8bit、16bit、32bit
声道:单双声道
人工智能语音训练数据的制作方式?_第1张图片
•不同设备通常采集的格式不同:
采集设备:
手机:16KHz、16bit (不同手机的降噪性能不同)
电话:8KHz、16bit
高保真麦克风或麦克风阵列:44.1KHz48KHz、16bit32bit
存储格式:WAV(录音时用的标准的WINDOWS文件格式)

⑤录音人注意事项
1.性别比例:通常要均衡,男女1:1最佳,可以有5%-10%的波动误差
2. 地域比例:覆盖越广越好(中国是七大方言区,按人数比例分布)
3.年龄比例:通常是18-25岁年轻人为主,但中年人也要有一定比例覆盖
4.语音时长:交付客户时,一个录音人的语音时长最佳在30分钟左右,不超过1小时为宜。

⑥合格指标
人工智能语音训练数据的制作方式?_第2张图片
⑥错误样例
1.音量大小、听不清(语速过快、发音不清)
3. 截幅:声音信号经音频设备重放后多出来的额外的谐波成分.(模拟截幅、数字截幅)
4. 失帧、丢帧 (模拟到数字信号后丢失数据信息)
5. 噪音、语音内容中有第二发话人出现
5.变声
6.喷麦
6. 语义不通
7. 重复音、磕巴音导致标注错误

四、语音标注
1、标注类型
• 标注的内容分类
必需项:
语音打点:按句切分,每句保留一定静音段;文字转写;对多人对话语音,还需区分说话人
可选项:噪音标注;拼音标注

2、标注要求
语音打点:
人工智能语音训练数据的制作方式?_第3张图片

•判断语音是否有效

※ 判断是否为有效或无效语音的原则:

  1. 如果一段语音声音极小,小到几乎听不到,则标注为无效。
  2. 如果一段语音中只含有噪声或者静音(视为无声音),则标注为无效。
  3. 如果只有“嗯”、“啊”、“哇噻”、“喂”等再无其他内容,则标注为无效。
  4. 一句话有听不清楚的部分,不能判断内容,转写不出全部正确结果的情况下,则标注为无效。

•语音内容转写标注
※ 数据转写标注人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致。
一般准则:

1.标注内容的完整性要与实际发音一致,不能多字、少字、错字。
◎ 口语不流利时会出现重复、修正、断续、犹豫的现象,统一按照实际发音情况进行转写。
例如:“我是 北 北 京人”“那个 那个 有没有”
◎口语快速发音时会出现吞音、错音、变音的现象,错音和变音需要按照上下文语义判断正确转写内容。例如:“政府”发音为“正负”,根据语义判断后应该标注为“我要去政府街”。吞音现象为发音不明显,无法断定。标注的时候需要用“{}”符号辅助转写。例如:“走不走{啊}”,其中“啊”字不明显。儿化音同样采取和吞音现象的转写方法。例如:“这{儿}不错”,其中“儿”字不清晰。

2.音频中的阿拉伯数字要转写成汉字形式,如要写成“一二三”,而不是“123”。 注意区分“一”和“幺”,“二”和“两”。

3.音频中有英文发音的应转写成相应的汉字或英文。具体分为以下几种情况:
◎ 网址中包含的所有的字母或单词,均为大写。例如:发音内容为”www.pp.com”, 应转写为“三W点PP点COM”。
◎ 发音中包含的英文单词,转写时全部为小写。
◎ 发音中包含的英文字母,转写时全部为大写。
◎ 对于一些专有名词,或者一些英文缩写,转写时全部为大写,例如:WTO、ERP等。

4.如发音清楚,但是语义不确定,比如普通人名等,可以选择同音字转写,但需要保证转写的读音正确。

5.关于添加空格注意事项:
◎ 空格只允许出现在英文单词之间。
◎ 英文字母、中文、中文和英文之间,均不能出现空格。

3、噪音符号解析
•噪音标注

  1. 采集环境噪音标注
  2. 语音内噪音内容标注
    •噪音内容标注项
    [h]: 表示人的呼吸声
    [k]: 表示人的咳嗽声
    [x]: 表示人的笑声
    [p]: 表示人的喷嚏声
    [z]: 表示人的咂嘴声、喷麦声
    [n]: 非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音,汽车笛声等。

4、合格指标

  1. 按句计算合格率
    ※ 句准确率=正确的句子数/总句子数
    注:一句话里有一个字错,也算该句错

  2. 按字计算合格率
    ※ 字准确率=正确的字数/总字数
    业内要求:普通话朗读类通常要求句准确率96%-98%、普通话对话或客服类通常要求句准确率95%-97%、方言和外语通常要求句准确率95%

五、发音词典
1、发音词典作用
人工智能语音训练数据的制作方式?_第4张图片
2、发音词典格式
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
OOV:语音数据里有发音词典里没有的词
发音词典的规模通常是5-10万词
一个词对应一个或多个音标(一个词可能有多个音标)
音标通常是国际音标(IPA)或其他类似书写形式(中文通常用拼音表示)

3、发音词典样例
人工智能语音训练数据的制作方式?_第5张图片
4、发音词典的商务策略
发音词典和语音数据是独立的两套数据
大部分客户会自己持续构建和扩充一个语种的发音词典
有些客户希望我们有发音词典,否则不买我们语音数据
建议:如果我们的发音词典没有或工期慢,可建议客户采购别家发音词典(如果客户担心别家发音词典词汇不全,可以把词表给我们,我们卖只有这些词的语音数据)

本文分享自:数据堂
网址:https://www.datatang.com/

你可能感兴趣的:(数据产品)