VAD(集成噪音人声识别)接口

语音活动检测(Voice Activity Detection,VAD),就是检测是否有声音,常规的算法是通过声音音量和频谱特诊来判断是否有声音的,但是无法区分是噪音还是人声,在电话机器人中噪音打断和噪音识别错误的关键词始终是一个痛点,机器学习算法可以通过大量噪音和人声数据训练出判别人声还是噪音的神经网络模型,VAD算法结合深度神经网络就可以彻底解决这个痛点了。 

噪音识别的用处
防止错误的意向判断

噪音识别成关键词(是,恩,哦),导致把无意向客户判断成有意向客户,通过噪音识别模块,过滤掉噪音,可以大大提高机器人的意向判断准确度。

防止噪音打断机器人说话
大部分机器人只要开了打断功能,有一点噪音就给错误打断了,根本没法在生产环境开打断功能,有了噪音识别模块,就可以避免噪音打断了。

机器人反应更灵敏

噪音环境VAD无法判断用户说话结束,会导致用户说话完成了,机器人还一直傻等,有了噪音识别模块,可以让机器人反应更加灵敏。

节约ASR费用

在电话机器人业务中,大量的无效声音(各种噪音)调用ASR,浪费ASR调用费用,有了噪音人声判别功能,就可以噪音不再调用ASR接口,节约大量ASR费用。

噪音人声识别算法原理
基于10G的噪音声音文件和10G的正常人声的声音文件,使用tdnn(时延神经网络)和 lstm(长短期记忆网络)训练出噪音人声音判别模型。

噪音人声识别的准确率
准确率取决训练数据的准确性,目前的模型大于1秒声音准确率大于99%, 300毫秒以内短时人声和质量很差的人声,有少量识别成噪音的错误率,因为噪音库包含了大量的背景人声。

背景人身(就是远处的人声)是否可以识别成噪音
目前没大量这类声音文件参与训练,对这样的情况还没准确的数据。

是否可以添加声音数据参与训练提高准确率
鉴于小公司够买不起LDC的数据集,我为为此开发了专门的声音标注工具,我的所有数据都是我自己标注的。如果您愿意投入人力标注声音是可以的。

你可能感兴趣的:(智能语音系统,机器人,人工智能)