作者:凌逆战
地址:https://www.cnblogs.com/LXP-Never/p/12051532.html
波束成型(Beamforming)又叫波束赋形、空域滤波
作用:对多路麦克风信号进行合并处理,抑制非目标方向 的干扰信号,增强目标方向的声音信号。
原理:调整相位阵列的基本单元参数,使得某些角度的信号获得相长干涉,而另一些角度的信号获得相消干涉。对各个阵元输出信号加权求和、滤波,最终输出期望方向的语音信号,相当于形成一个“波束”。
远场:由于信号源到阵列的距离远大于阵元间距,不同阵元接收信号的幅度差异较小,因此把不同阵元采集的语音信号的幅值认为都是一样的,只需对各阵元接收信号的相位差异进行处理即可。
近场:不同阵元接收到的信号幅度受信号源到各阵元距离差异的影响非常明显,需考虑信号源到达不同阵元的波程差。
问题:
- 通常的阵列处理多为窄带,使得传统的窄带信号处理方法的缺点逐渐显现出来。语音信号的频率范围为300~3400Hz,没有经过调制过程,且高低频相差比较大,不同阵元的相位延时与声源的频率关系密切,使得现有的窄带波束形成方法不再适用
- 信噪比比较低和混响影响比较高的环境下难以准确估计波达方向
- 传统的后置滤波只考虑散射噪声或只从波束形成后的单通道输出中估计噪声不足
根据获取加权矢量时采用的方法不同,可将波束形成方法分为三类:
- 和参考信号数据无关的波束形成方法,如常规波束形成方法,这种波束形成方法通过加权取平均得到固定的阵列输出响应,阵列输出不受信号数据变化的影响;
- 使用最佳权矢量的波束形成方法,这类方法依赖于对阵列接收数据统计特性的估计,如最大信噪比准则;
- 可根据接收数据变化自适应地改变权矢量的波束形成方法,如最小方差无畸变响应(MVDR)波束形成、LMS算法、递推最小二乘(RLS)算法、采样矩阵求逆(SMI)算法等。
宽带波束形成主要分为时域方法和频域方法,
- 时域方法:对每个支路进行合适的延时,对各阵元上接受信号的时间进行补偿,使信号到达基阵时可以等效为是同一波面同时到达各阵元;
- 频域方法:首先将宽带信号在频域分解为若干个子带,对子带信号进行窄带波束形成后,通过合成得到宽带波束输出。
由于时域方法受到采样精度的限制,多用于处理低频信号,处理高频信号更多采用频域方法。
麦克风阵列信号处理通常由 自适应波束形成 和 后置滤波 两个部分组成。
在自适应波束形成和后置滤波中,准确的估计导向矢量和噪声功率谱密度十分的关键。在导向矢量可估计的条件下,常用的波束形成算法包括延迟相加、最小方差无失真响应和广义旁瓣相消器。最简单的导向矢量估计是利用波达方向信息,除此之外,S. Gannot利用语音信号的非平稳性计算相对传递函数作为导向矢量,A. Krueger使用广义特征值分解得到的最大特征向量估计传递函数作为导向矢量。基于最小均方误差幅度谱估计和对数幅度谱估计是应用最为广泛的单通道语音增强算法之一,准确地跟踪噪声可以避免语音失真或噪声残余,常用的噪声跟踪算法有最小值跟踪算法和最小值控制递归平均算法。
基本原理分析
对与麦克风阵列而言,由于各个麦克风的分布位置不同,阵元接收的语音信号会存在一定的时间差。利用这一信息可以确定声源的方向和位置。
通过对齐各个通道的信号,相位差异可以将干扰部分抵消掉,增强目标语音信号。
常规波束形成算法研究
麦克风信号以均匀线性模型为例
窄带信号模型表示为
$$\begin{array}{l}{x_{1}(t)=s(t) e^{j \omega t}} \\ {x_{2}(t)=s(t) e^{jwt} d^{j \frac{2 \pi}{\lambda} d \sin \theta}} \\ {\cdots \cdot} \\ {x_{N}(t)=s(t) e^{j \omega t} d^{j \frac{2 \pi}{\lambda}(N-1) d \sin \theta}}\end{array}$$
将上式写为矩阵形式
$$X(t)=\left[\begin{array}{c}{x_{1}(t)} \\ {x_{2}(t)} \\ {\dots . .} \\ {x_{N}(t)}\end{array}\right]=s(t) e^{j \omega t}\left[\begin{array}{l}{1} \\ {e^{j \frac{2 \pi}{\lambda} d \sin \theta}} \\ {\cdots} \\ {\frac{2 \pi}{\lambda}(N-1) d \sin \theta}\end{array}\right]=s(t) a(\theta)$$
其中,$a(\theta )$为方向矢量或者导向矢量。波束形成后的输出语音信号$y(t)$为$M$个通道经处理后的接收信号加权之和。
$$y(t)=\sum_{i=1}^{M} w_{i}^{H}(t) x_{i}(t)=w^{H} x=s(t) w^{H} a(\theta)$$
其中,$w=[w_1,w_2,...,w_N]^T$表示波束形成器的权值向量,$T$表示转置,$H$表示共轭转置。
因此,多通道波束形成是对各个麦克风通道接收信号进行加权重因子系数调节并相加的过程。对各个阵元来说,信号在一瞬间的幅值相同,使用不同的权矢量$w$作加权处理,一般只做信号的相位调整,不做幅度改变。由此可知,如果空间中仅存在一个$\theta _k$方向的波信号,其导向矢量为$a(\theta_k)$,当权重矢量取$w=a(\theta_k)$时,则输出信号最大值$y(n)=a(\theta_k)^Ha(\theta_k)=M$。这时阵列各路信号加权相干叠加,为经典的固定波束形成 (Fixed Beamforming)。
- 优点:低计算复杂度、易于实现;在非相干噪声场环境下应用较多。
- 缺点:在相关噪声场,存在混响等情况下效果不是很好
无论是直接相加还是采用加不同窗函数的形式它们的权系数都是固定的。因此,要达到较好的效果需要依靠増加麦克风数量,这样会导致成本和资源消耗的增加,而且适应性也比较差。
延迟求和波束形成 (DSB)
延迟求和波束形成 (Delay and Sum Beamforming, DSB)
原理:首先对不同麦克风信号之间的相对延迟进行补偿,然后叠加延时后的信号形成一个单一的输出。
缺点:
- 需要麦克风的数量相对较多,
- 如果噪声源是相干的,降噪效果会强烈地依赖于噪声信号的到达方向,延迟求和波束形成在混响环境中的性能往往是不够好的。
优点:
- 由于可以有效地减轻非相干噪声,该类波束形成器仍然被广泛使用。
E. Jan 在延迟求和的基础上引入滤波求和波束形成器,这种结构的设计考虑了多径效应,用匹配滤波器代替简单的延迟补偿器,具有更好的效果。
自适应波束形成算法
最小方差无失真响应波束形成(MVDR)
1969 年,J. Capon 提出了最小方差无失真响应(Minimum Variance Distortionless Response, MVDR)波束形成算法。该算法是应用得最为广泛的自适应波束形成方法之一。
原理:在期望信号无失真的约束条件下,选择合适的滤波器系数,使得阵列输出的平均功率最小化。
MVDR的权重优化问题可以表示为
$$\left\{\begin{array}{l}{\min _{w} w^{H} R_{x} w} \\ {\text {s.t. } w^{H} a\left(\theta_{s}\right)=1}\end{array}\right.$$
其中,$a(\theta_s)=[a_1(\theta)...a_M(\theta)]^T$为目标信号导向矢量,表示声源方向和麦克风之间的传递函数,可以通过纯净语音信号达到每个麦克风的不同延迟时间$\tau$计算得到。$R_x$为空间信号相关协方差矩阵,根据快拍次数估计得到。当在时间上彼此不相关的$k$个噪声信号从不同方向到达麦克风阵元时,空间相关协方差矩阵被定义为:
$$R_{x}(\omega)=\sum_{k=1}^{K} a\left(\omega, \theta_{k}\right) a^{H}\left(\omega, \theta_{k}\right)$$
运用拉格朗日乘子法计算得到最优权重为:
$$w_{\mathrm{MVDR}}\left(\omega, \theta_{s}\right)=\frac{R_{x}^{-1}(\omega) a\left(\omega, \theta_{s}\right)}{a^{H}\left(\omega, \theta_{s}\right)^{H} R_{x}^{-1}(\omega) a\left(\omega, \theta_{s}\right)}$$
因为约束条件是纯净语音信号无失真,即纯净语音信号是保持不变的,为了使得输出的方差最小化,仅仅只需要让噪声信号最小化。所以上式信号相关矩阵$R_x$可以用噪声相关矩阵$R_n$替换。
- 当$R_n$为非相干噪声场的相关矩阵,则MVDR退化为延迟求和波束形成器,
- 当$R_n$为散射噪声场的相关矩阵,则MVDR退化为超指向性波束形成器。
补充:MVDR是理论上普遍采用的波束形成典型算法,在复杂环境下,由于协方差矩阵计算的不精确性算法会导致性能急剧下降。后来的研究者提出了许多基于对角加载的解决方法。这些方法解决了对角加载值不易确定且无法通过样本更改自动调整的问题,使协方差矩阵误差问题得到一定的改善。但是,这些算法相对比较复杂,效率较低。
线性约束最小方差( LCMV)波束形成器
1972年,L. Frost 提出了线性约束最小方差(Linearly Constrained Minimum Variance, LCMV)波束形成器。LCMV 波束形成在效果上实际是 MVDR 波束形成的扩展形式,它将后者中期望信号不受影响的这一约束扩展为一组约束,即为目标方向无失真同时对其它噪声干扰方向陷零。随后 L. Frost 基于约束最小均方自适应滤波器提出了LCMV 算法的自适应结构。
原理:在满足一组约束的同时,使波束形成输出(干扰信号、噪声)的功率最小化。
LCMV的约束条件可以表示为:
$$\left\{\begin{array}{l}{w_{o p t}=\arg \min w^{H} R_{x} w} \\ {s . t . w^{H} C=f}\end{array}\right.$$
其中,一组线性约束条件可以定位为M*P维的约束矩阵C,其中麦克风数量M需要小于线性约束条件P的个数。$f$表示P*1维的约束矢量,$R_x=E[x(t)x^H(t)]$表示输出协方差矩阵。
采用拉格朗日乘子法计算,在接收的信号相关矩阵$R_x$存在可逆矩阵的前提下,获得最优解为
$$w_{LCMT}=R_x^{-1}C(C^HR_x^{-1}C)^{-1}f$$
- 优点:广义约束
- 缺点:须知信号波达方向
补充:当LCMV方法的约束条件取$w^Ha(\theta )=1$时,演变为最小方差无失真响应波束形成器(MVDR,minimum variance distortionless-response),其原理是在阵列输出信号能量保持不变的约束条件下,通过调节权重系数使阵列信号输出总功率(相关功率与非相关功率之和)达到最小。由于目标信号的强度得以保持,而噪声的方差被最小化,可以说MVDR使阵列输出信号的信噪比(SNR)达到最大。
广义旁瓣相消器(GSC)
为了避免约束性自适应算法,1982 年J. Griffiths 提出了广义旁瓣相消器,可以证明在纯延时条件下 GSC 是 LCMV 的一种等效实现结构,GSC 结构将 LCMV 的约束优化问题转化为了无约束的优化问题。
原理:GSC 将LCMV 权重矢量分解为自适应权重和非自适应权重两个部分,其中自适应权重位于约束空间的正交空间中,非自适应权重位于约束子空间中。
G SC是LCMV的等效实现方式,主要由主路和辅路两部分组成,目标信号从主路通过,噪声和干扰从辅路通过。权矢量可表示为
$$w=w_q-Bw_a$$
其中$w_q=(CC^H)^{-1}Cf$为非自适应权重,是权重矢量$w_{LCMV}$在约束子空间上的投影,约束子空间由约束矩阵C表示;$w_a=(B^HR_xB)^{-1}B^HR_xw_q$为自适应权重,是权重矢量$w_{LCMV}$在最小方差子空间上的投影。最小方差子空间由M*(M-P)维的阻塞矩阵B表示,B的作用就是就是保证目标信号不进入辅路。组成B的列矢量处于约束子空间的正交互补空间中。由于约束矩阵和阻塞矩阵是相互正交的所以必须满足$B^HC=0$。
GSC波束形成的结构图如上图所示,其主要结构由固定波束形成、阻塞矩阵和自适应噪声相消器构成。在GSC结构中,上支路由延时求和的固定波束形成器组成,由于是将接收信号投影到约束子空间,因此我们希望只有纯净期望语音通过。下支路由阻塞矩阵和自适应抵消器组成,由于是将接收信号投影到最小方差子空间,阻塞矩阵的输出希望只有噪声通过。固定波束形成器的输出、阻塞矩阵的输出以及自适应抵消器组成了多通道自适应滤波结构。阻塞矩阵被用来阻塞期望语音信号,令$y_c=w_q^Hx$,$z=B^Hx$,权矢量可以表示为$w_a=R_z^{-1}p_z$,$w_a$是保证主辅路均方误差最小的维纳解。其中,$R_z=B^HRB$是$z$的协方差矩阵,$p_z=B^HRw_q$是$z$和$y_c$的互相关矢量。当$z$支路中包含较少目标信号时,GSC效果较好;但是当声源移动或者混响比较严重时,$z$中包含的目标信号超过一定程度,将会产生期望信号的泄露,在接下来的自适应滤波过程中会造成噪声信号与上支路期望语音信号相互抵消的现象,导致期望语音的失真,算法性能下降。
所以1999 年,O. Hoshuyama 等人采用约束自适应滤波的方法代替原来的对齐相减,以及采用当期望语音存在时只更新阻塞矩阵,而当期望语音不存在的时候只更新自适应抵消器的系数来减小期望语音信号的泄露
传递函数广义旁瓣对消器(TF-GSC)
2001 年,S. Gannot 考虑到房间的混响情况,在频域提出了传递函数广义旁瓣对消器。
TF-GSC 包括三个部分,
- 固定的波束形成器(Fix Beamforming, FBF)用来将目标信号分量对齐,
- 阻塞矩阵(BlockMatrix, BM)用来将目标信号进行阻塞得到噪声参考信号,
- 多通道自适应噪声消除器(Adaptive Noise Canceller, ANC)利用噪声参考信号对固定的波束形成器输出噪声进行消除。
为了进一步提升降噪效果,许多改进的方案在波束形成算法后加入一个频域滤波器,如维纳滤波器或其他最小均方误差(Minimum Mean Square Error, MMSE)估计器。通过在初始步骤中对信号的统计参数进行估计,然后使用这些参数来执行传统的单信道降噪算法,如对数谱幅度估计或谱减法,即有望进一步抑制噪声。
参数化多通道维纳滤波器
参数化多通道维纳滤波是多通道维纳滤波器的推广形式,多通道维纳滤波器的基本思想是最小化期望信号与输出信号的均方误差,但是维纳滤波器不能保证输出的信号是无失真的。通常可以引入一个参数,使得语音失真和噪声抑制之间取得折中。参数化多通道维纳滤波就是引入了一个语音失真加权参数,并在此参数的影响下最小化期望信号与滤波输出的均方误差,可以表示如下
$$\min _{\mathbf{w}} R{s s}\left|1-\mathrm{w}^{H} \mathrm{h}\right|^{2}+\mu \mathrm{W}^{H} R{\mathrm{nn}} \mathrm{w}$$
求解得到的波束形成系数为
$$\mathbf{w}_{\mathrm{PMWF}}=\frac{\phi_{s s} \mathbf{R}_{\mathrm{nm}}^{-1} \mathbf{h}}{\mu+\phi_{\mathrm{ss}} \mathbf{h}^{H} \mathbf{R}_{\mathrm{nm}}^{-1} \mathbf{h}}$$
语音失真加权参数$\mu$控制着语音失真与噪声抑制之间的平衡, $\mu$值越接近于 1 算法的降噪能力就越强,但语音的失真程度就会越大,且当$\mu=1$时,PMWF 退化为多通道维纳滤波器从而不再保证语音的失真程度。$\mu$值越接近于 0 则语音的失真程度就越小,但算法的降噪能力会越弱,且当$\mu=0$时,PMWF 退化为 MVDR 波束形成器。参数化多通道维纳滤波算法也可以称为语音失真加权多通道维纳滤波算法(Speech Distortion Weighted Multichannel Wiener Filter, SDW-MWF),在系统模型误差方面,其相较于标准的 GSC 算法具有更强的鲁棒性。
后置滤波技术
当噪声干扰信号不是点声源或有太多的干扰噪声从不同方向到达麦克风阵列时,波束形成器的降噪能力是有限的。同时非稳定干扰噪声的存在也会影响自适应波束形成器对噪声的抑制效果。在自适应波束形成的输出后接入一个后置滤波器可以有效地抑制残留噪声,如非相干噪声、散射噪声等。由于指向性波束只能产生有限数量的陷零,这就限制了散射噪声的抑制程度。短时谱估计的后置滤波算法基于期望信号与噪声在时频域的不同,而非空间位置的不同,所以可以有效地抑制散射噪声。
维纳后置滤波器
在上一节中我们提到的多通道维纳滤波实际上可以分解为MVDR波束形成和一个单通道的维纳滤波两部分,如图下所示,其中$w_i(k)$表示 MVDR 波束形成滤波系数。其分解过程如下所示:
首先我们令 PMWF 中的参数$\mu=1$便得到多通道的维纳滤波器
$$\mathbf{w}_{\mathrm{MWF}}=\frac{\phi_{\mathrm{ss}} R{\mathrm{nn}}^{-1} \mathbf{h}}{1+\phi_{\mathrm{ss}} \mathbf{h}^{H} \mathbf{R}_{\mathrm{nm}}^{-1} \mathbf{h}}$$
利用 Woodbury 恒等式可将 MWF 分解为如下形式
$$\mathbf{w}_{\mathrm{MWF}}=\frac{\mathbf{R}_{\mathrm{w}}^{-1} \mathbf{h}}{\mathbf{h}^{H} \mathbf{R}_{\mathrm{nn}}^{-1} \mathbf{h}} \frac{\phi_{\mathrm{ss}}}{\phi_{\mathrm{ss}}+\phi_{\mathrm{nn}}}$$
其中$\phi_{nn}=w_{MVDR}^HR_{nn}W_{MVDR}=(h^HR_{nn}^{-1})^{-1}$。通过上式可以看出,准确的估计期望信号的功率谱或噪声信号的自相关函数是维纳后置滤波算法的根本。
Zelinski 后置滤波器
Zelinski 后置滤波器在估计$\phi_{ss}$时是基于噪声在不同麦克风之间是无关的假设,且由不相关噪声场产生,即$R_{nn}=\sigma _n^2I$;所有麦克风中的噪声功率谱均相同,即$R_{n_in_i}=R_{nn}$;语音和噪声是不相关的。由上假设可得
$$R_{y_iy_i}=\phi_{ss}h_ih_i^*+R_{nn}$$
$$R_{y_iy_j}=\phi_{ss}h_ih_j^*$$
平滑后观测信号的自相关功率谱密度和互相关功率谱密度,可以如下递归估计
$$\hat{R}_{y_iy_i}(t, f) =\alpha \hat{R}_{y_iy_i}(t-1, f)+(1-\alpha) y_{i}^{*} y_{i}$$
$$\hat{R}_{y_iy_j}(t, f) =\alpha \hat{R}_{y_iy_j}(t-1, f)+(1-\alpha) y_{i}^{*} y_{j}$$
$\alpha$为接近 1 的固定平滑因子,Zelinski 后置滤波器最后可以表达成为
$$w_{\mathrm{Zelinski}}=\frac{\frac{2}{M(M-1)} \sum_{i=1}^{M-1} \sum_{j=i+1}^{M} \operatorname{Re}\left\{\hat{R}_{x_i, y_{j}}(t, f)\right\}}{\frac{1}{M} \sum_{i=1}^{M} \hat{R}_{y_iy_i}(t, f)}$$
其中 Re(·)表示复数的取实部操作,应用于上式是为了确保语音的功率谱密度估计是实数。
缺点:由于 Zelinski后置滤波器在估计噪声时并没有考虑到前面波束形成的降噪作用,使得噪声被过估计,因此Zelinski后置滤波器在理论上是次优的。
U. Simmer为了解决噪声过估计的问题,在 Zelinski 滤波的基础上提出了另外一种后置滤波器。在同样的非相干噪声场假设条件下,Simmer 后置滤波器将波束形成后输出的自相关功率谱密度代替 Zelinski 后置滤波器的分母部分。由于在分母部分使用了波束形成输出的自相关功率谱密度,Simmer后置滤波器被证明是在不相干噪声信号条件下理论最优的维纳后置滤波器。
问题:Zelinski 后置滤波器和 Simmer 后置滤波器仅仅只解决了在非相干噪声场中不相关噪声信号的抑制问题,但在实际生活中纯非相干噪声场的使用场景比较少,我们一般对常见的扩散噪声场更感兴趣。
Mc Cowan 后置滤波器
McCowan 后置滤波并没有假设不同麦克风之间的噪声是不相关的,考虑到麦克风之间接收噪声的相关性,且假设噪声是已知的散射噪声场,用噪声相关函数${\Gamma _y}(f)$表示。由以上假设,麦克风接收信号的自相关和互相关噪声功率谱密度可表示为
$$R_{y_iy_i}=\phi_{ss}h_ih_i^*+R_{nn}$$
$$R_{y_iy_j}=\phi_{ss}h_ih_j^*+\Gamma_{ij}R_{nn}$$
根据上式,Mc Cowan 后置滤波器最后可以表达成为
$$w_{\text {Mecowan }}=\frac{\frac{2}{M(M-1)} \sum_{i=1}^{M-1} \sum_{j=i+1}^{M} \hat{R}_{s s}^{i j}(t, f)}{\frac{1}{M} \sum_{i=1}^{M} \hat{R}_{y_{i} y_{i}}(t, f)}$$
其中
$$\hat{R}_{s s}^{i j}(t, f)=\frac{\operatorname{Re}\left\{\hat{R}_{y y, y}(t, f)\right\}-\frac{1}{2} \operatorname{Re}\left\{\Gamma_{i j}(f)\right\}\left[\hat{R}_{y y, t}(t, f)+\hat{R}_{y, y}(t, f)\right]}{1-\operatorname{Re}\left\{\Gamma_{i y}(f)\right\}}$$
同样是由于噪声过估计问题,Mc Cowan 后置滤波器是理论次优的。
S. Lefkimmiatis采用了与 U. Simmer 相同的方法解决噪声过估计问题。同样是考虑到使用波束形成滤波后的输出估计噪声信号的自相关功率谱密度,Lefkimmiatis 后置滤波器被证明是在扩散噪声相干函数条件下理论最优的维纳后置滤波器。
最优修正对数谱幅度后置滤波器
维纳滤波器基于均方误差准则,并不能得到最优的频谱,更合适的方法是基于谱幅度的均方误差或对数谱幅度的均方误差。基于这两个准则,Y. Ephraim 提出了短时谱幅度估计器(Short-Time Spectral Amplitude, STSA) 和对数谱幅度估计器 (Log Spectral Amplitude, LSA) 。I. Cohen 在对数谱幅度估计器的基础上结合语音的存在概率提出了最优修正对数谱幅度估计器(Optimal Modified Log-Spectral Amplitude, OM-LSA)。在期望语音信号和噪声信号经过离散傅里叶变换后,假设其傅里叶系数的实部和虚部均满足均值为零的高斯分布,在此条件下基于对数短时谱幅度最小均方误差的估计器可以分解为MVDR自适应波束形成器后接入一个单通道的对数短时谱幅度后置滤波器。
I. Cohen 率先将最优修正对数谱幅度估计器用于麦克风阵列后置滤波部分,其表达式如下所示
$$w_{\mathrm{OM}-\mathrm{LSA}}=\left(\frac{\xi(t, f)}{1+\xi(t, f)} \exp \left(\frac{1}{2} \int_{v(t, f)}^{\infty} \frac{e^{-t}}{t} d t\right)\right)^{p(t, f)} \cdot G_{\mathrm{min}}^{1-p(t, f)}$$
其中$\xi(t, f)$为先验信噪比,$\gamma (t,f)$为后验信噪比,$v(t,f)=\frac{\gamma (t,f)\xi(t, f)}{1+\xi(t, f)}$,$p(t,f)$为语音存在概率,$G_{min}$为语音不存在时滤波器的增益下限。不同于传统的单通道OM-LSA 算法,作为麦克风阵列后置滤波器的 OM-LSA 算法,其语音存在概率的估计融合了空间信息,所以结果更准确。
解决方案
《基于特征值分解的自适应波束形成及后置滤波》
1. 首先利用期望最大化算法估计期望语音信号在时频点上存在的概率,
2. 然后推导了基于最大特征值向量的导向矢量估计和基于最小特征值向量的噪声功率
谱密度估计。
思路:为了更稳定地估计导向矢量和更精确地估计残留噪声。提出了基于特征值分解的自适应波束形成和后置滤波算法。基于最大特征向量的导向矢量估计不需要麦克风阵列的几何位置信息,信号相关矩阵的主成分将会指向最大输出功率方向。这样就可以避免对目标信号方向进行直接估计,且对于混响信号具有很好的鲁棒性。同时我们将使用信号相关矩阵最小特征值对应的特征向量对噪声功率谱密度进行估计。利用多通道信号估计的噪声功率谱密度相较于单通道的噪声跟踪更加准确。
超指向性波束形成算法(SBF)研究
对于麦克风阵列,最关键的问题之一是如何处理噪声环境中的有效信号捕获。信号在空间中大量的反射往往会形成接近球形的各向同性噪声场。因此,本论文在最小无失真响应(MVDR)算法的基础上,利用各向同性散射噪声场矩阵代替MVDR算法中的噪声空间相关协方差矩阵,对语音信号做波束形成降噪处理。
所有关于波束形成算法设计的主要性能指标是各类噪声场矩阵相关函数。所谓的“超指向性”(Superdirective)是指通过最优相关函数处理,抑制来自所有方向噪声对目标信号的影响,输出比常规波束形成具有更高“方向性”的阵列增益信号,从而改善降噪处理效果。
参考文献
麦克风阵列的语音增强算法研究——王晓雪
2017麦克风阵列自适应波束形成及后置滤波技术研究_夏杰