【分享】2000人上海方言手机语音数据库(样例 女)

数据介绍 

 

2000名发音人在手机环境下录制的上海话方言数据,所有数据均做过人工转写。可用于上海话语音识别研发。  


本数据为该数据的样例。

 

具体指标

 

    1)录音环境 

 

安卓手机环境,录音环境安静,不包括明显的其他人说话的声音。 

 

    2)录音设备 

 

覆盖了常用的安卓手机,包括三星、华为、中兴、HTC、联想、酷派、小米等厂商的流行机型。 

 

    3)录音人 

 

2000名录音人,录音人性别比例分布均匀 

 

    4)录音语料

 

覆盖16万个中文句子,每名录音人录制300句中文。在句子选取时,进行了相似去重并考虑了不同音素的平衡。


录音语料分布如下:


来自各领域的用户问题,领域覆盖:常用网址、彩票、影视、应用、股票、利率、汇率、周边搜索、限行、短信、音乐、餐饮、电视交互、笑话、唐诗宋词、假期安排、打电话、系统设置、通讯录、地图导航、网络搜索、天气、计算器、公制转换、日期时间、油价、日程安排、航班、火车时刻、发短信等30多个领域。


用户短信,覆盖常用的短信内容。


客服查询:覆盖电信、银行、IT领域的常见客户问题。 


    5)采样格式

 

16000Hz,16位,单声道,wav格式  

 

数据格式 

 

每个录音人对应一个唯一编号,每个录音人的数据放在一个文件夹下,包括: 

 

    1)录音人信息文件(.txt):存放该录音人的性别、年龄、籍贯及所用手机型号 

 

    2)该录音人的各个句子的wav格式语音文件,文件以句子编号命名。例如:G006S1007.wav是编号为G006的录音人录制的语音,对应文本为编号G006S1007的句子。


所有语音的转写文字统一保存在一个文本文件中。


数据下载:http://www.datatang.com/data/45875

数据堂-数据共享服务平台


你可能感兴趣的:(数据共享)