640小时印尼语手机采集语音数据

640小时印尼语手机采集语音数据

640小时印尼语手机采集语音数据

数据堂640小时印尼语手机采集语音数据 有效数据时长640小时

数据产品详情

格式 16bit,wav,单声道;txt;metadata
语音数据格式:手机录制语音:16kHz,16bit,wav,单声道
标注结果:txt
数据标签格式:metadata
录音环境 相对安静的室内,无回声
语音均录制于相对安静的室内,无回声
录音内容 通用类;交互类;家居命令;车载命令;数字类
1280人,每人朗读约450句,包含的语料类型为:通用类;交互类;家居命令类;车载命令;数字类;
语料类型:
通用类:领域不限的句子,来源广泛,包括日常口语、新闻等多种内容
交互类句子:涉及到音乐、娱乐、体育、出行、生活、社交等不同的类别
家居命令类句子:涉及到对智能家居设备的控制命令
车载命令类句子:涉及到对车载装置设备的控制
数字类:包含日期、货比、时间等内容;
人员 1280人;男性占比50%;18-25岁 60%;26-45岁35%;46-60岁5%;覆盖马来方言区
共有1280人参与录制,男性640人,占比50%;女性640人,占比50%

18-25岁 60%;26-45岁35%;46-60岁5%;上下浮动5%
地域分布: Daerah Khusus Ibukota Jakarta, Jawa Timur, Bali, Jawa Barat, Sumatera Selatan, Kalimantan Barat等

设备 1280人安卓手机、苹果手机
1280人采用苹果手机和安卓手机录制
手机:安卓手机、苹果手机,覆盖市面上常见品牌的主流机型,如三星、华为、小米、vivo等
语言 印尼语
录音人员均使用印尼语进行录制
标注内容 文本
根据音频的实际发音转写文本
应用场景 语音识别;机器翻译;声纹识别
可用于语音识别声学/语言模型训练或算法研究
可用于机器翻译语料库建设
可用于声纹识别模型训练或算法研究

数据存储结构 -
640小时印尼语手机采集语音数据_第1张图片
640小时印尼语手机采集语音数据_第2张图片

文件夹说明
data:数据均存放于此文件夹内
category:录制数据,包含语音数据、标注结果及数据标签等
doc:数据相关的说明文档均存放于此,包含:数据产品说明书、metadata等
GXXXX:录音人员编号,该文件夹数量与实际录音人员数量一致
sessionXXX:数据批次,存放该批次内的全部语音数据、对应的标注结果及数据标签
文件说明
数据产品说明书:数据产品介绍
wav:语音数据,一个数据批次(session)下包含多个语音数据
txt:标注结果,与语音数据一一对应
metadata:数据标签,与语音数据一一对应
3数据样例说明
样例均取自真实数据产品,是对完整数据产品的局部展示。640小时印尼语语音数据样例工共包含4名录音人员,其中男性2人,女性2人。
样例数据集只是对完整数据情况的局部展示,仅用于参考阅读。

官网:www.datatang.com

你可能感兴趣的:(数据产品,印尼语音数据,语音识别,数据堂,语音训练数据,语音采集数据)