Kinect的“四只耳朵”—麦克风阵列

由于Kinect的“三只眼”的不对称分布,Kinect麦克风阵列也是左右不对称,从而保持质量分布的均衡。Kinect的“四只耳朵”分布如图2-15所示。

Kinect的“四只耳朵”—麦克风阵列_第1张图片

Kinect的音频系统采用了四元线性麦克风阵列技术。一般而言,麦克风阵列中包含四个相互独立的小型麦克风,每个设备之间相距数厘米,其排列可呈线形,捕捉多声道立体声,通过数字信号处理(DSP)等组件,根据麦克风阵列接听声音的时间差来判断声源方向,如图2-16所示。


Kinect的“四只耳朵”—麦克风阵列_第2张图片
 

从元件上看,除了Kinect所有的四元麦克风阵列以外,还配置了Wolfson Microelectronics WM8737G(配置了前置放大器的24bit立体声ADC)用于进行本地的音频信号处理。Kinect的“四只耳朵”具有以下特点:

 音频格式:16kHz, 16bit单声道(PCM)。

 音频输入特性:4个带有24bit的数字模拟信号(ADC),用于消除和处理噪声的麦克风阵列。

 Kinect共有4个向下的麦克风:右侧3个,左侧1个。

微软认为最佳的声音搜集方向应该是朝下的。这种麦克风阵列的设计是为了尽可能获得优质的声音信号以及判断不同方向的声源,尤其适用于在室内的走动,并识别语音命令。比如玩Kinect Xbox 360游戏前,为了正确识别语音指令,系统会建议用户对房间中的语音进行校准。不过,如果你改变了房间内的家具摆放,就必须要重新校准。在进行设置时,语音识别功能会根据房间的反射性创制一幅音频分布图。音频处理器则利用这幅图来执行多通道上的回声消除,以提高对声音命令的解读能力。

与一般的单麦克风数据相比,Kinect阵列技术包含有效的噪声消除和回波抑制(Acoustic Echo Cancellation,AEC)算法,同时采用波束成形(Beamforming)技术,通过每个独立设备的响应时间确定音源位置,并尽可能避免环境噪声的影响。此外,Kinect还被设计为可以在发言者超过一人时辨别出相应的语音指令。波束形成技术已广泛应用于雷达、声纳和通信等领域。

扩展阅读 上述波束成形技术的细节来源于微软研究院,有兴趣的读者可以参考A New Beamformer Design Algorithmfor Microphone Arrays,原文发表于IEEE-Proceedings of ICASSP 2005 USA。

你可能感兴趣的:(Kinect的“四只耳朵”—麦克风阵列)