数据介绍
不同籍贯、性别的发音人在车载环境下用三星手机录制的中文普通话语料,共690多名录音人,每人310句。所有数据均做过人工转写,转写后有效语音数据为214990条。可用于车载环境下的手机语音识别研发。
此数据为该数据的样例。
具体指标
1)录音人
男性324人,女性371人。年龄分布均匀。口音分布均匀。
2)录音设备
三星手机Note3和Galaxy S4,安卓系统。
3)车型
覆盖日系车、美系车、德系车,具体包括:马自达、君威、帕萨特、凯美瑞、君威、雅阁、奥迪、宝来、昊锐、蒙迪欧、天籁、沃尔沃等车型。
4)道路
低速路(市区道路)录制2/3,高速路(速度100以上)录制1/3。每名录音人分别录制四种环境:
关窗关音乐:前80句
关窗开音乐:第81-155句
开窗开音乐:第156-230句
开窗关音乐:第231-310句
5)录音语料
覆盖20多万个中文句子,每名录音人录制300句。在句子选取时,进行了相似去重并考虑了不同音素的平衡。录音语料分布如下:
来自各领域的用户问题15.8万句,领域覆盖:常用网址、彩票、影视、应用、股票、利率、汇率、周边搜索、限行、短信、音乐、餐饮、电视交互、笑话、唐诗宋词、假期安排、打电话、系统设置、通讯录、地图导航、网络搜索、天气、计算器、公制转换、日期时间、油价、日程安排、航班、火车时刻、发短信等各种领域。
用户短信1.1万句,覆盖常用的短信内容。
微博句子2.2万句。
新闻句子1.4万句。
6)关于转写
录音完毕后,由人工全部转写。以听到的语音为准。
阿拉伯数字一律转成汉字,怎么读怎么转,注意区分“一”和“幺”
英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)一律大写,按词读的则小写
如果文字中有错别字,也纠正过来。
如有噪音,则在文字中插入噪音符号,噪音种类如下:
录音人自己产生的噪音[r]:如咳嗽、打嗝、鼻子声音等。
其他人的声音[p]:非录音人的人声,通常是旁边的司机或管理人员或车外的人发出的声音。
汽车喇叭声[b]
其他噪音[n]
注:录音环境中用到的声音(风声、音乐声)不算噪音。
7)录音格式
16000Hz,16位,单声道,同时存储wav格式和mp3格式
数据格式
每个录音人对应一个唯一编号,如G0001、G0002,每个录音人的数据放在一个文件夹下,包括四类数据:
1)录音人信息文件(.txt):存放该录音人的性别、年龄、籍贯及所用手机型号
2)Mp3格式的语音:在Mp3文件夹下存放该录音人的各个句子的mp3格式语音文件,文件以句子编号命名。
3)Wav格式的语音:在Wav文件夹下存放该录音人的各个句子的wav格式语音文件,文件以句子编号命名。
转写标注结果统一保存在单独的文本文件中,包括:wav语音文件名、是否有效(1为有效、2为无效)、文字内容。
数据样例
数据下载:http://www.datatang.com/data/45915
数据堂-数据共享服务平台