语音增强噪声类型及评估方法

    语音增强属于数字信号处理中的语音信号处理领域。

1、简介

1.1 噪声类型

    语音增强的目的是提高语音信号的质量或可懂度,减少失真。这里主要介绍单麦克风信号语音增强,常见的失真有:

        (a) 加性声学噪声:就是麦克风在录制语音时同时录制进去的背景环境声音

        (b) 声学混响:多径反射引起的叠加效应

        (c) 卷积信道效应:导致不均匀或带宽限制响应,为了去除信道脉冲响应,做信道均衡时对通信信道没有有效建模

        (d) 非线性失真:比如信号输入时不适当的增益

        (e) 加性宽带电子噪声

        (f)  电器干扰

        (g) 编码失真:比如压缩编码

        (h) 录音仪器引起的失真:麦克风频率响应不足

1.2 语音增强的目的

     1)提高语音可懂度,让人类更容易听懂

    2)提高语音质量,让人耳更容易接受

    3)修饰语音,提高自动语音或说话人识别系统性能

    4)修饰语音,让语音存储或传输编码更有效

    大多数文献主要针对后面3点,语音质量和语音可懂度是有区别的,语音质量提高了,语音可懂度可能会降低。而提高语音识别系统的性能又有所不同,因为这些系统忽略了许多人类听觉感知的元素,一般用一些频谱特征来代表语音信号。


2、评估方法

2.1 语音增强系统评估方法

     主要以语音质量和语音可懂度为主,分为主观和客观方法:

    主观:以人耳判断为主,分为绝对得分法:对单一信号进行打分;倾向法:听多个信号,感觉哪个较好。

    客观:通过分析一些指标来判断,又分两类,一类需要原始音频和处理后的音频,另一类只需要处理后的音频


2.2 语音可懂度

      主观方法:语音测试;单词可懂度(诊断押韵测试Diagnostic Rhyme Test,DRT);句子可懂度(噪声下听力测试,Hearing in Noise Test,HINT)

    客观方法:语音可懂度指数;PESQ

    不是所有因素组合可以组成单词,也不是所有单词组合可以组成有意义的句子。


3、增强方法

3.1 语音增强

     可以将信号退化分成3类:

    1)在声学和电子学中可能产生与期望信号不相干的加性噪声,其影响了声音可懂度和听觉质量,极端情况下,甚至掩盖了期望语音。对于一些加性噪声,其频谱特征是平稳的或随时间缓慢变换的,比如嗡嗡声、功放噪声和一些环境噪声。谱减法和单信道自适应滤波器成功应用于这些平稳噪声。还有一些加性噪声是间歇的或高度非平稳的,这些噪声的鉴定和消除效果还不理想,比如媒体干扰、非期望语音干扰和一些电子干扰。

    2)卷积影响一般是由混响、反射等造成的,其与加性噪声的区别是:加性噪声和期望语音时不相干的,而卷积噪声和期望语音是相干的。麦克风的位置、麦克风的特性和CODEC局限性可能引起带宽限制和不均匀的频谱响应。对卷积噪声的处理效果不是很好。

    3)非线性失真频繁出现于幅度限制、麦克风功放等。这类噪声也比较难处理。


3.2 按帧处理

      x(n;l) = w(n)x(n+l*M)

    其中n=0;...;N-1,w(n)是窗函数,M是帧移,N是窗长,是频率分辨率和时间分辨率的折衷,一般是10~30ms,对应50Hz左右的频率分辨率。为了减小窗函数的影响,窗函数的选择和帧移选择很重要,可以用汉宁窗,半帧长的帧移。


3.3 谱减法

    1979年提出,广泛用于减少加性噪声。只要在频谱上乘以一个增益系数。谱减法如果减得不够,会有噪声残留,如果减得过多,又会造成语音失真。

你可能感兴趣的:(语音增强)