深度学习语音降噪方法对比_一种语音降噪方法与流程

本发明涉及音频处理领域,特别涉及一种语音降噪方法。

背景技术:

:现实生活中,语音信号一般都带有噪声,在进一步处理信号前,往往要对信号进行降噪,随着信噪比的减小,降噪方法处理的效果也随之变差,也经常使得语音丢字或者波形失真。如何在低信噪比情况下,达到不错的降噪效果,是一个值得探究的问题。现在的语音降噪一般分为,传统信号处理方式:如最小均方算法、谱减法、维纳滤波法;以及神经网络方式,使用深度学习网络直接在时域处理,使用带噪声语音以及干净语音样本训练降噪模型,使用模型对输入语音进行降噪处理。上述两种语音降噪分别的缺陷如下:传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本。技术实现要素:本发明的目的在于:提供了一种语音降噪方法,解决了传统信号处理方法可扩展性差,不同的噪声环境需要不同的;神经网络虽然能够处理所有噪声情况,但是该方法非常依赖于训练样本的问题。本发明采用的技术方案如下:一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;进一步的,所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。进一步的,所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。基于神经网络的深度降噪模型设计如图所示。共包含编码网络和解码网络。在编码网络,采用全卷积网络实现信号卷积处理,采用Pooling层实现信号缩放。在解码网络,采用反Pooling层和卷积层,实现信号的解码,其中反Pooling层用到解码网络中对应层的Pooling信息,最终输出增强或去噪语音。进一步的,所述基于神经网络模型的深度降噪模型的训练包括以下步骤:G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,采用随机梯度下降法训练神经网络,得到基于神经网络模型的深度降噪模型。进一步的,本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的,本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。综上所述,由于采用了上述技术方案,本发明的有益效果是:1.本发明一种语音降噪方法,本方法对带噪信号先进行降噪预处理,能够滤除一部分均匀的环境噪声,如白噪声,使得后续的神经网络模型能够主要处理其他噪声,如汽车鸣笛,其他人声音等。2.本发明一种语音降噪方法,本方法对带噪语音样本执行VAD操作,去掉了非必要的信号,能够缩短音频降噪处理的时间。附图说明本发明将通过例子并参照附图的方式说明,其中:图1是本发明的流程图;图2是本发明所采用的深度卷积降噪网络的示意图;具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面结合图1、图2对本发明作详细说明。实施例1一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;E、将步骤D中预定格式的带噪语音信号切片成固定长度;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;实施例2本实施例与实施例1的区别在于所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用传统的频域信号处理方法对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。进一步的,所述步骤D中的预定格式包括预定频率、预定量化级和预定调制方法。进一步的,所述基于神经网络模型的深度降噪模型的训练包括以下步骤:G1、采集带噪语音样本,将带噪语音样本依次执行步骤A、B、C后得到干净语音样本,根据带噪样本的VAD结果剪裁对应的干净语音样本;G2、将步骤G1中的干净语音样本和带噪语音样本都执行步骤D、E得到干净语音样本切片和带噪语音样本切片;G3、将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,训练神经网络得到基于神经网络模型的深度降噪模型。实施例3本实施例与实施2的区别在于本方法用于个人或有限数量的用户时,步骤G1中的带噪语音样本采用对应用户的带噪语音样本。进一步的,本方法用于个人或有限数量的用户时,步骤G1对应用户的干净语音样本,通过合成得到带噪语音样本。实施例4一种语音降噪方法,包括基于神经网络模型的深度降噪模型,还包括以下步骤:A、对带噪语音信号进行预处理得到预处理过的语音信号;B、使用语音端点检测技术VAD对步骤A中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;C、根据步骤B检测到语音信号的有效起点和终点,剪裁整个语音信号;D、将步骤C中裁剪后的语音信号转换为预定格式的带噪语音信号;该格式采用16000Hz,16位量化,单通道的脉冲编码调制;E、将步骤D中预定格式的带噪语音信号切片成固定长度,如1s;F、将步骤E中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号;进一步的,所述步骤A中对带噪语音信号进行预处理的方法包括以下步骤:A1、对输入的带噪语音信号进行加窗处理,将连续的语音信号拆分成语音帧;A2、对每一帧语音信号进行快速傅里叶变换FFT,将时域信号转换到频域;A3、使用最小均方算法LMS对每一帧频域信号进去噪处理;A4、将步骤A3中进去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧;A5、对步骤A4中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。实施例5本实施例是比较噪声信号和Wiener方法的增强信号的客观评估结果,结果如表1所示,各行分别代表不同的测度。MetricNoisyWiener本文方法PESQ1.972.222.20CSIG3.353.233.64CBAK2.442.683.15COVL2.632.672.96SSNR1.685.078.29表1以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。当前第1页1 2 3 

你可能感兴趣的:(深度学习语音降噪方法对比)