远场语音技术简介-001

  1. 什么是远场语音?
    远场语音是一种人与机器间的交互方式,相对与近场语音来说,区别是它的作用距离通常会在1米到10米之间,主要的技术难点在于对于多径反射、混响效应及背景噪音干扰的处理。它的前端通常使用麦克风阵列对语音做拾取,市面上常用的配置一般有双麦、四麦、六麦,麦的放置方式通常需要考虑应用环境和产品的结构等多重因素,最终选用方式通常是通过仿真和实测试错进行定型,各家都有自己的经验数据,一般不对外公布。远场语音最早落地的应用是智能音箱,国内以阿里、百度等为代表推出了大众化产品,国外以亚马逊和谷歌为代表先于国内推出产品,值得一提的是亚马逊目前在智能音箱这块的生态做的最为完善,同时新一代的智能音箱集成有智能家居的控制HUB功能,大大拓宽了音箱的应用场景,阿里和百度目前借助国内的垄断地位也开始在智能家居领域开始布局,宣称在智能音箱中嵌入蓝牙MESH技术,前期通过补贴方式进行市场开拓和圈地。其他应用领域目前都在早期尝试阶段,比如教育机器人、汽车语音助手、白色智能家电、智能厨电等。

  2. 远场语音系统架构
    远场语音系统由前端语音处理模块和后端语音识别模块组成,
    远场语音识别系统基本框图

目前商用的语音识别系统都是基于统计原理设计,如上面框图所示,声学模型用于表述声学、麦克风、环境多样性等可变因素,语言模型表述语言学角度定义的词语组合方式及逻辑顺序,与译码器的应用接口用于将识别结果更好的适配到系统其他模块。典型的统计语音识别可以用下面的公式表述:
基本公式
对于给定的语音特征向量序列X=X1X2…Xn,语音识别的目标是找到对应的单词序列W=w1w2…wm,同时保证后验概率P(W|X)为最大。由于上面等式在X范围内计算,上面等式可以改写为:
语音识别基本公式
公式中的P(W)和P(X|W)通过语言模型和声学模型分别计算得到。
实践中最大的挑战是如何创建精确的声学模型P(X|W)和语言模型P(W)。对于大型词汇语音识别系统,我们需要将里面的单词划分成更小的音节序列(称为发音建模),由于词汇量很大,P(X|W)近似于音节模型。P(X|W)需要考虑喇叭差异、发音变化、环境

声源定位技术在人工智能领域应用广泛,利用麦克风阵列来形成空间笛卡尔坐标系,根据不同的线性阵列、平面阵列和空间阵列,来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强,当智能设备获取你的位置信息可以结合其他的传感器进行进一步的智能体验,比如机器人会听到你的呼唤走到你的身边,视频设备会聚焦锁定说话人等等。了解声源定位技术之前,我们需要了解近场模型和远场模型。
麦克风阵列声场模型
近场和远场模型

声源定位技术之TDOA
TDOA

TDOA是先后估计声源到达不同麦克风的时延差,通过时延来计算距离差,再利用距离差和麦克风阵列的空间几何位置来确定声源的位置。分为TDOA估计和TDOA定位两步:

(1)TDOA估计

常用的有广义互相关GCC,Generalized Cross Correlation和LMS自适应滤波
Generalized cross correlation

广义互相关

基于TDOA的声源定位方法中,主要用GCC来进行延时估计。GCC计算方法简单,延时小,跟踪能力好,适用于实时的应用中,在中等嘈杂强度和低混响噪声情况下性能较好,在嘈杂非稳态噪声环境下定位精度会下降。
LMS自适应滤波

LMS自适应滤波

在收敛的状态下给出TDOA的估值,不需要噪声和信号的先验信息,但是对混响较为敏感。该方法将两个麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过调整滤波器系数得到TDOA。

(2)TDOA定位

TODA定位
TDOA估值进行声源定位,三颗麦克风阵列可以确定空间声源位置,增加麦克风会增高数据精度。定位的方法有MLE最大似然估计、最小方差、球形差值和线性相交等。TDOA相对来讲应用广泛,定位精度高,且计算量最小,实时性好,可用于实时跟踪,在目前大部分的智能定位产品中均采用TDOA技术做为定位技术。

声源定位技术之波束形成

波束形成可分为常规的波束形成CBF(Conventional Beam Forming)和自适应波束形成ABF(Adaptive Beam Forming)。CBF是最简单的非自适应波束形成,对各个麦克风的输出进行加权求和得到波束,在CBF中,各个通道的权值是固定的,作用是抑制阵列方向图的旁瓣电平,以滤除旁瓣区域的干扰和噪声。ABF在CBF的基础之上,对干扰和噪声进行空域自适应滤波。ABF中,采用不同的滤波器得到不同的算法,即不同通道的幅度加权值是根据某种最优准则进行调整和优化。如LMS,LS,最大SNR,LCMV(线性约束最小方差,linearly constrained Minimum Variance)。采用LCMV准则得到的是MVDR波束形成器(最小方差无畸变响应,Minimum Variance Distortionless Response)。LCMV的准则是在保证方向图主瓣增益保持不变的情况下,使阵列的输出功率最小,表明阵列输出的干扰加噪声功率最小,也可以理解为是最大SINR准则,从而能最大可能的接收信号和抑制噪声和干扰。

CBF-传统的波束形成
传统波束成形
延时求和的波束形成方法用于语音增强,对麦克风的接收信号进行延时,补偿声源到每个麦克风的时间差,使得各路输出信号在某一个方向同相,使得该方向的入射信号得到最大的增益,使得主波束内有最大输出功率的方向。形成了空域滤波,使得阵列具有方向选择性。

CBF + Adaptive Filter 增强型波束形成
CBF+自适应滤波
结合Weiner滤波来改善语音增强的效果,带噪语音经过Weiner滤波得到基于LMS准则的纯净语音信号。而滤波器系数可以不断更新迭代,与传统的CBF相比,可以更有效的去除非稳态噪声。

ABF-自适应波束形成
ABF-自适应波束成形
GSLC是一种基于ANC主动噪声对消的方法,带噪信号同时通过主通道和辅助通道,而辅助通道的阻塞矩阵将语音信号滤除,得到仅包含多通道噪声的参考信号、各通道根据噪声信号得到一个最优信号估计,得到纯净语音信号估计。

未完待续…

你可能感兴趣的:(人工智能,远程语音)