想准确识别各地方言?这套15000小时方言语音数据推荐了解一下

不论是 " 啥事都中" 的河南 , 还是遍地 " 靓女靓仔 " 的广东 , 方言都是各地极具特色的文化名片。一方面 , 方言附着极大的亲切感 , 另一方面 , 方言也承载着各地强烈的情感认同与文化价值。

想准确识别各地方言?这套15000小时方言语音数据推荐了解一下_第1张图片

重庆方言

方言识别顾名思义就是利用智能语音技术使机器听懂说话人的方言语音。随着科技的发展,人工智能应用使用场景也会不断拓展,方言识别已成为众多人工智能厂商关注的重点。

方言识别市场前景远大

在智能客服领域中,方言识别功能的加入能提高方言、重口音普通话识别的准确率,从而精准识别出用户提出的问题,给与用户最合适的回答,高效精准的服务用户,成为真正“听得懂,说的出”的智能客服,进而拉近企业与用户之间的距离,树立良好的企业形象。

想准确识别各地方言?这套15000小时方言语音数据推荐了解一下_第2张图片

在输入法领域,方言识别可以让重口音、方言用户做到随心所欲的语音输入,不必再担心因为口音问题出现的错输、漏输问题,也可以让只会讲方言的老年人,通过软件实现与听不懂方言的用户无障碍交流,亲身体会到科技带来的便利。

方言识别可用于传统文化保护

方言是一个地区独有的语言,它的形成包含了当地的自然因素、社会因素,汇集了当地特色文化的方言,如果丢失,就相当于丢掉了该地区的文化根基。

想准确识别各地方言?这套15000小时方言语音数据推荐了解一下_第3张图片

方言识别技术还可以反向输出方言,让当地居民了解、学习当地的方言,进而了解当地的文化,并去自发的保护当地文化,这样才能更好的保护文化多样性。在广袤的华夏大地上,科技正在反哺传统,正守护着多彩语言文化的灿烂文明。

面临重重挑战的方言识别

方言识别虽然前景较好,但面临的挑战也不少,首先,方言识别与普通话识别截然不同,方言的识别要复杂得太多。复杂不仅体现在文字使用习惯上 ( 例如:(普)近来还顺利吗?工作很辛苦吧?(粤)呢段时间过得顺唔顺吖?做嘢好辛苦嘞?) , 读音上也存在差异性 (" 福 " 读 " 胡 " )哪怕同属于一个大的方言分区,也分歧异出,更不用说属于不同大区之间的方言了。

其次,众多的方言种类,给方言数据采集带来了很多困难。一般来说,数据库的采集无非是字、词、句的搜罗,把该方言点的常用句子、词语通过文字、音标乃至语音的方式记录下来,集成一个数据库,供人工智能学习使用。众多方言种类意味着需要收集的数据也是海量的。很难短时间建立起全国通用的方言数据集。

方言语音识别数据解决方案

面向方言识别技术在将来的大规模应用,数据堂提前预知、布局,已采集涵盖七大方言区和台湾地区的数万小时以上的方言数据,包含《粤语手机采集语音数据》、《昆明方言手机采集语音数据》、《台湾普通话手机采集语音数据》等方言数据集,可分秒交付,数据堂严格遵守相关规定,所采集的数据均已获得被采集人授权,数据堂致力于用高质量的数据推动步态别的发展、有效保障用户数据性的安全性。

粤语手机采集语音数据

想准确识别各地方言?这套15000小时方言语音数据推荐了解一下_第4张图片

样品语音:今日去咗试新嘢 木瓜猪耳沙律太好食

该数据包括近5000名来自广东省发音人,在安静的室内环境下的录音数据。录音内容广泛,覆盖50 万句常用口语语句,包括微博高频词、日常用语等。句子平均重复次数1.5次,平均句长12.5字,句准确率95%。匹配主流安卓、苹果系统手机。

昆明方言手机采集语音数据

想准确识别各地方言?这套15000小时方言语音数据推荐了解一下_第5张图片

样品语音:我想知道虹桥正荣府怎么走

两千余名昆明话母语发音人参与录制,口音正宗,覆盖多个年龄段。录音文本涵盖通用、交互、车载、家居等多类别,内容丰富。昆明本地人参与质检校对,文本转写精准率达95%。匹配主流安卓、苹果系统手机。

台湾普通话手机采集语音数据

想准确识别各地方言?这套15000小时方言语音数据推荐了解一下_第6张图片

样品语音:我沒有讀選修的社會非常不利

该数据由数百名台湾本土人员参与录制,每人朗读450句,录音内容丰富,包括经济,娱乐,新闻,口语,数字,字母等,涵盖通用场景及人机交互场景。已经过人工进行文本转写,句准确率达95%。匹配主流安卓、苹果系统手机。

未来方言识别会加强对 " 方言字词 “、” 方言音标 " 标准化建设 , 让AI更懂人们的声音。未来随着语音识别自适应能力越强 , 不受特定人、口音、的方言识别技术将指日可待。

你可能感兴趣的:(数据产品,语音识别,人工智能)