麦克风阵列能干这么多事你知道吗?

转载自: http://www.a-site.cn/article/128846.html


麦克风阵列(MicrophoneArray),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。...

欢迎点击上方“艾维音响网“订阅更多信息
麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
一、声学照相机


试想想,若有一种这样的设备能一眼就直观表现出哪里的噪声是最大的,哪里的噪声是最小的,这样在声学工程隐蔽验收或者是隔声问题改造的时候就可以进行精准定位,更快更好的解决问题!
声学照相机,又名声相(像)仪,是利用传声器阵列测量一定范围内的声场分布的专用设备,可用于测量物体发出的声音的位置和声音辐射的状态,并用云图方式显示出直观的图像,即声成像测量。
声成像(acoustic imaging)是基于传声器阵列测量技术,通过测量一定空间内的声波到达各传声器的信号相位差异,依据相控阵原理确定声源的位置,测量声源的幅值,并以图像的方式显示声源在空间的分布,即取得空间声场分布云图-声像图,其中以图像的颜色和亮度代表声音的强弱。将声像图与阵列上配装的摄像实所拍的视频图像以透明的方式叠合在一起,就形成了可直观分析被测物产生噪声状态。这种利用声学、电子学和信息处理等技术,将声音变换成人眼可见的图像的技术可以帮助人们直观地认识声场、声波、声源,便捷地了解机器设备产生噪声的部位和原因,物体(机器设备)的声像反映了其所处的状态。
声成像的研究开始于20世纪20年代末期。最早使用的方法是液面形变法。随后,很多种声成像方法相继出现,至70年代已形成一些较为成熟的方法,并有了大量的商品化产品。声成像方法可分为主动声成像、扫描声成像和声全息。

由于很多声检测器均能记录声波的幅度和相位,并将其转换成相应的电信号,记录换能器阵列各单元接收信号的幅度和相位,即可重现物体声像。
声成像质量的主要指标有图像的分辨率、信噪比、畸变和虚像等。声成像的质量不仅与所用的仪器设备有关,而且在很大程度上还与声波在介质中传播的特性(如反射、折射和波型转换)有关。
二、全能金耳朵
我们人的耳朵是具有声像定位的能力,但是如何让设备也具备学习声音定位和识别的能力呢,这就是扬声器阵列能做到的,下面就让小编为大家介绍这种技术吧!
未来人工智能会像水和电一样无所不在,在“万物互联时代”,语音将成为人机交互的新常态。风吹麦浪,静夜虫鸣。人类能听到的声音大约有40多万种,频率在20至20000赫兹之间。智能终端能听到多少呢?

在科大讯飞2015年度发布会的现场,3000余人见证了这样的一场人机互动。演示人员在5米开外,用声音操控DingDong,完成了一系列高难度的订票任务,引来台下阵阵惊叹!

现场那么嘈杂,DingDong却如此“听话”,要让DingDong听懂这么多声音,而且具备远场识别的功能,它必须听的到,而且要听的更加清晰,人类可以带上助听器,机器需要什么呢?

【麦克风阵列】就充当了助听器这样的角色。这个名词是不是很陌生,放心!下面小编和你唠唠这个【麦克风阵列】。

早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

任何一项技术的发生发展都伴随着问题的提出及解决,麦克风阵列也是如此。那么它主要应用在哪些场景下呢?又有着怎样的功能!

◆【噪声环境怎么破?】—— 语音增强(Speech Enhancement)

语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下,也能准确识别语音指令。


混响产生原因示意图


◆【室内回声太大怎么破?】——去混响(Dereverberation)

一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。

但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。

影响语音识别的部分一般是晚期混响部分,所以去混响的主要工作重点是放在如何去除晚期混响上面,多年来,去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种:

1、基于盲语音增强的方法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。

2、基于波束形成的方法(Beamforming based approach),通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。

3、基于逆滤波的方法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
混响语音信号频谱
经过去混响后的语音信号频谱


◆【说话人太多怎么破?】——声源信号提取(分离)

家里人说话太多,DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。而麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
通过麦克风阵列波束形成做语音提取和分离


利用麦克风阵列做信号的提取和分离主要有以下几种方式:

1、基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离:

2、基于传统的盲源信号分离(Blind Source Separation)的方法进行,主要包括主成分分析(Principal Component Analysis,PCA)和基于独立成分分析(Independent Component Analysis,ICA)的方法。
进击的麦克风阵列
麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m、20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。

相对于目前集中式的麦克风阵列,分布式阵列的优势也是非常明显的。首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,阵列的节点可以覆盖很大的面积——总会有一个阵列的节点距离声源很近,录音信噪比大幅度提升,算法处理难度也会降低,总体的信号处理的效果也会有非常显著的提升,因此分布式阵列有可能是未来智能家居和会议系统中的主流方案。目前科大讯飞已经开始了相关技术研究的布局工作。

在万物互联的今天,麦克风阵列技术已经深刻的走进了我们的日常生活。在智能车载、智能家居、机器人、可穿戴设备等应用热潮正兴起的时代,语音交互由于其便捷性,成了人机交互入口的第一选择,麦克风阵列自然也成为其中非常重要的前端技术。

你可能感兴趣的:(Speech,Enhancement)