语言分离(噪声中分离)

第一篇论文:《基于深度学习的语音分离研究_张晖》

第二篇论文:《基于卷积神经网络的语音分离方法研究与实现_杨冰晴》

第三篇论文:《基于深层神经网络的语音增强方法研究_徐勇》(大神的论文,各种公式,看不太懂


传统方法:根据所使用的麦克风数量的不同,语音分离的方法可以分为单声道(一个麦克风)分离和多声道的基于麦克风阵列(多个麦克风)的分离

单声道语音分离,一般用到两种技术:语音增强,和计算听觉场景分析

语音增强通过分析语音和噪声的一般统计量,从带噪语音中估计噪声,进而从带噪语音中减去噪声估计,得到目标语音。其中最简单的也是使用最广泛的技术是谱减,它估计噪声的功率谱,从带噪语音中减去噪声得到目标语音。

计算听觉场景分析模拟了人类听觉系统的场景分析过程,它将听觉场景分析分成分段(segmentation)和组织(grouping)两个步骤,首先利用时间连续性及谐波特性等信息,将语音信号分解成独立的来自于单个声源的片段,再根据语音基音(pitch)以及语音开始(onset)和结束位置(offset)等线索,将语音片段组织连接起来。这些连接起来的语音就是分离得到的目标语音。

第二篇论文的分类:

2.1 基于计算听觉场景分析(ComputationalAuditorySceneAnalysis,CASA)的语音分离、

2.2 基于频谱分解的语音分离

2.3 基于模型的语音分离(机器学习)

第三篇论文的分类:

3.1 谱减法  估计噪声的高斯模型,y-噪声模型的均值

语言分离(噪声中分离)_第1张图片

3.2 维纳滤波器法

语言分离(噪声中分离)_第2张图片

3.3 基于最小均方误差准则的幅度谱和对数谱估计:??没看懂

有监督语音增强算法:

3.1 基于浅层神经网络的语音增强

3.2 基于隐马尔可夫模型的语音增强 ?

3.3 基于非负矩阵的分解的语音增强 ?



多声道的基于麦克风阵列的分离方法使用两个或两个以上的麦克风。

它使用空间滤波或者波束合成(beamforming)方法,利用麦克风阵列的麦克风排列方式加强来自某一特定方向的信号,从而使其他方向的信号相对减弱,达到减弱噪声、分离语音的目的。最简单的方法是延迟相加技术(delay-and-sum):首先将各个信号做适当延迟,使他们在时间上对齐,再将对齐后的信号相加。因为多个麦克风采集到的信号之间存在相位差,求和会减弱没有对齐的来自非目标方向的信号。空间滤波技术能够减弱的噪声源个数受到了空间形状、大小以及麦克风阵列上麦克风的排列方式的限制。但大体来说,麦克风越多、麦克风阵列的尺寸越大,能减弱的噪声源也就越多。这种方法利用空间信息分离语音,所以无法减弱和目标语音处于相同或者接近位置的噪声源。除此之外,物体反射造成的混响会破坏声源的方向性,在混响条件下空间滤波方法的性能会大幅下降。

第二篇论文:

1 固定波束形成技术、

2 自适应波束成形技术、

3 后置滤波技术和信号子空间技术

机器学习:

分别以时频掩蔽和目标语音频谱为目标的这两种语音分离方法,分别称为时频掩蔽方法 和 频谱映射方法

新近的研宄将语音分离看作一个有监督学习问题新近的研宄将语音分离看作一个有监督学习问题。早期工作受到了计算听觉场景分析中时频掩蔽(time-frequencymasking)技术[7,23,24]的启发。在计算听觉场景分析中的一个重要的目标是理想二值掩蔽(idealbinarymask,IBM)[18]。理想二值掩蔽在带噪语音的时频表示上标注出特定时频单元是否被目标语音主导,即目标语音的能量是否高于噪声的能量。根据人类听觉系统的掩蔽效应(auditorymasking)|25],时间、频率相近的(在同一个时频单元内的)两个声音信号中,能量低的那个信号会被能量高的那个掩蔽,听觉系统无法感知到被掩蔽掉的信号。利用理想二值掩蔽去除噪声主导的部分,人们就无法感知到噪声的存在了。

当把理想二值掩蔽作为计算目标时,语音分离就变成了一个二元分类问题。在训练的时候,把理想二值掩蔽作为训练目标,测试时再用训练好的模型来预测理想二值掩蔽。理想二值掩蔽是有监督的语音分离研究中使用的第一个训练目标。

汪德亮等系统分析了以上的特征,使用拉索(Lasso)方式选择出了对语音分离最有效的特征组合为:梅尔倒谱系数、相对谱变换感知线性预测系数、振幅调制谱和语音基音特征。目前,在有监督的语音分离中,最常使用的输入特征是语音短时傅里叶变换的振幅谱。

输出信号:目标语音或各种时域掩蔽

时域掩蔽:

理想二值掩蔽:理想二值掩蔽是最早使用的训练目标,在一个时频单元里,如果局部信噪比(signal-to-noiseratio,SNR)超过一个阈值,理想二值掩蔽在这个单元是1,否则是0。理想二值掩蔽里面的非零值标注出了目标语音主导的时频单元。

语言分离(噪声中分离)_第3张图片

理想浮值掩蔽:

语言分离(噪声中分离)_第4张图片

频谱振幅掩蔽、复数域的理想赋值掩蔽、隐式时频掩蔽


整体模型:

语言分离(噪声中分离)_第5张图片

输入信号:带噪语音信号y=s+n;信号s;噪声n;

时频分解:但要前端处理为二维的时间频率信号(一般为短时傅立叶变换)

短时傅立叶变换:

计算短时傅里叶变换(STFT)的过程是将长时间信号分成数个较短的等长信号(信号和窗函数相乘)。

一个函数可以先乘上仅在一段时间不为零的窗函数再进行一维的傅里叶变换。再将这个窗函数沿着时间轴挪移,所得到一系列的傅里叶变换结果排开则成为二维表象。数学上,这样的操作可写为:


反短时距傅里叶变换,其数学类似傅里叶变换,但须消除窗函数的作用:


时频分解将输入的时间域的目标语音信号s⑴、噪声信号n(t)和混合的带噪语音信号y⑴转换到时间-频率域,得到它们的时频表示S(t,f)、N(t,f)和Y(t,f)。


目标计算与特征抽取:

训练目标:假设为理想浮值掩模因为时频分解后有S(t,f)、N(t,f)和Y(t,f),计算出理想浮值掩模即可。

时频掩蔽方法:目标函数 掩模函数

频谱映射方法:目标函数 S(t,f)

特征抽取:现在常用信号的振幅谱作为特征:


语音是一个连续信号,在时间维度和频率维度都有很强的相关性,一个时频单元在时间和频率上的上下文信息对模型学习很有帮助。假设取前K帧和后L帧作为时间上下文,全部频率通道作为频率上下文,则得到的特征向量为:

语言分离(噪声中分离)_第6张图片

例如:我们使用基于短时傅立叶变换的特征。在16kHz的采样率下,用50%的重叠的320个采样点(20ms)的汉明窗得到短时傅立叶变换系数,之后取前16丨个系数,取绝对值,开三次方,并将规范化到零均值、一方差。前后各扩展两帧,每帧的特征包含161x5=805维,

测试:测试输出信号的掩模,原信号的Y(t,f)×掩模,然后做短时傅立叶逆变换,的得到原始信号。






你可能感兴趣的:(语音分离)