麦克风阵列信号处理

麦克风阵列与波束形成

麦克风阵列是指由两个或者多个麦克风按照一定的几何结构排列而成的阵列,按照拓扑结构不同,麦克风阵列可以分为均匀线性阵列,非均匀线性阵列,非线性阵列,环形阵列,二维(平面)阵列,三维(立体)阵列等等

对各阵元上的信号进行滤波,再相加起来就是简单的波束形成,

声源定位算法大致分为三类:基于可控波束形成器的声源定位算法(基于最大输出功率的可控波束形成技术)、基于到达时间差的声源定位算法(TDOA)、基于高分辨率谱估计的声源定位算法。

(1)基于最大输出功率的可控波束形成技术
该方法对麦克风所接收到的声源信号滤波并加权求和来形成波束,进而通过搜索声源可能的位置来引导该波束,最终使波束输出功率最大的点就是声源的位置
延迟和波束形成法DSB(delay-and-sum beamforming)
该方法对麦克风信号采用时间移位以补偿声源到麦克风的传播延时,并通过相加求平均来获取阵列的输出,但是DSB形成的波束其主瓣的宽度与信号的频率相关,这在目标声源偏离波束最大增益方向时会引起语音的失真。
滤波和波束形成FSB(filter-and-sum beamforming)
该方法在DSB进行时间校正的同时,还对信号进行了滤波,通过一定长度的FIR滤波器来实现频率不变的空间响应特性,也称恒定指向波束形成(CDB),但是通常需要大数量的麦克风才能达到较好的消噪效果,此外它适合于消除非相干噪声或散射噪声,而对相干噪声则没有消除能力,因此对于方向性噪声和房间混响等不能有效消除。
上述两种算法在滤波器设计完成后不能变动,因而称为固定波束形成器,然而在某些环境下,信号和噪声的统计特性是随时间变化的,这就需要利用自适应的波束形成方法
自适应波束形成基于MVDR(最小方差无畸变响应)准则,原理是在保证期望方向信号不变的条件下,使阵列的输出功率到达最小来抑制噪声
可控波束形成技术本质上是一种最大似然估计,他需要声源和环境噪声的先验知识,在实际使用中,这种先验知识往往很难获得,此外,最大似然估计是非线性最优化问题,这类目标函数往往有多个极点,且该方法对初始点的选取也很敏感,因此使用传统的梯度下降算法往往容易陷于局部极小点,从而不能找到全局最优点,若要通过其他搜索方法找到全局最优点,就会极大的增加复杂度。

(2)基于TDOA的定位方法
基于TDOA的定位方法是一种双步定位方法,该方法首先估计信号到达不同麦克风之间的时间差,进而通过几何关系来确定声源的位置。
对于该方法,稳健的时延估计是进行准确定位的基础,现有的TDE(时延估计方法)分为两类:
利用互相关函数的时延估计方法
如:GCC(广义互相关法)、最大似然加权法(ML)、互功率谱相位(CSP)
通过求取路径的脉冲响应(或传递函数)来获取TDOA估计
如:LMS(自适应最小均方)、EVD(子空间分解或特征值分解法)、ATF比(基于传递函数比)

鉴于GCC受混响的影响比较严重,可以在GCC前端加入CEP(倒谱预滤波)来改进GCC算法,通过对通道特性的分析,有目的地去除信号中受反射影响严重的部分,再将预滤波后的信号通过GCC方法进行TDE,这样能有效降低混响的影响,而且也具有一定的扛噪性能。
GCC使用的加权函数有CC、Roth、SCOT、PHAT、Eckart、
可以看出GCC方法是建立在非混响模型基础上的,由于受模型误差的影响,他不能正确辨识多个说话人和方向性的干扰噪声,并且更倾向于估计比较强的信号的TDOA值,所以GCC方法只能用于低混响和非相关噪声的场合。


image.png

时延估计技术需要从三个方面评估实用性,对定源和动源的跟踪能力、在不同混响和信噪比环境下的稳健性、算法的计算量

(3)基于高分辨率谱估计的定位方法
该方法来源于一些现代高分辨率谱估计技术,如AR(自回归模型)、MV(最小方差谱估计)、MUSIC(多重信号分类)他们利用EVD(特征值分解)将数据的协方差矩阵分解为信号子空间和噪声子空间,然后找出与噪声子空间正交的方向矢量来获得声源的方向估计
该算法不会受到信号采样频率的限制,并且在一定条件下可以实现任意定位精度,但是1)该算法是利用相关矩阵中最大几个特征值来判定声源位置的,一旦有方向性噪声的出现,且其能量与声源相差不大,算法有时会找到方向性噪声的方向,2)另外房间的反射作用使信号和干扰之间有一定的相关性,从而极大降低了该方法的有效性,3)这一方法需要对整个空间进行搜索来确定声源的位置,且其估计精度与空间的细分程度有关,计算复杂度偏高

你可能感兴趣的:(麦克风阵列信号处理)