强噪声下的语音检测 VAD

VAD是语音处理中经常使用的技术,不大起眼,但也至关重要,往往各大技术团队都会很在意“模型”上的跟进与改进,忽视VAD这种技术的重要性,因为模型上很多是技术的前沿点,比如DNN,大家做了能拿出来吹吹牛,并且这种技术大家都做,通常会得到一个stata of the art的技术指标,而VAD呢,研究了N年也没个标准,也没有使用前沿技术,做了引不起内部、外部关注,并且难度一点都不小,不像DNN这种技术,本身比较统一,开源的资源比较多,大家主要是在参数配置,速度优化上做文章,有很明确的优化方向,但VAD就像一个大坑,用什么方法?基于规则还是模型?什么特征稳定?都还没个标准,放眼望去,文章五花八门。

最近做了一些强噪声的语音检测,主要针对以下类似语音:

与手标端点相比,达到95%准确率,还比较有成就感,记录一下。

强噪声下的语音检测 VAD_第1张图片

强噪声下的语音检测 VAD_第2张图片



你可能感兴趣的:(强噪声下的语音检测 VAD)