声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)

Machine learning in acoustics: Theory and applications

  • 前言
  • 摘要
  • 1.引言
  • 2.机器学习原理
    • 2.1.输入和输出
    • 2.2.监督和无监督学习
    • 2.3.生成:训练数据和测试数据
    • 2.4.交叉验证
    • 2.5.维度之咒
    • 2.6.贝叶斯机器学习
  • 3.监督学习
    • 3.1.线性回归,分类
    • 3.2.支持向量机
    • 3.3.神经网络:多层感知器
  • 4.无监督学习
    • 4.1.主成分分析
    • 4.2.最大期望和高斯混合模型
    • 4.3.K-means
    • 4.4.字典学习
    • 4.5.自动编码网络
  • 5.深度学习
    • 5.1.激活函数和整流器
    • 5.2.端到端训练
    • 5.3.卷积神经网络
    • 5.4.迁移学习
    • 5.5.专业架构
    • 5.6.声学应用
  • 6.混响环境中声源定位
    • 6.1.基于最大期望过程的定位和跟踪
    • 6.2.基于流形学习的声源定位和跟踪
  • 7.海洋声学中声源定位
  • 8.生物声学
  • 9.日常场景中的混响和环境声
  • 9.1.混响
  • 9.2.环境声
  • 9.3.面向人类层面的环境声和场景解读.
  • 10.总结

前言

上一篇综述总结了声学传感中的几类问题,相关工作以及挑战.在未来展望中,作者提到对于使用深度学习来解决传统声学中的问题十分看好.今天我们来看一下关于机器学习在声学中的综述.
由于开题,暂时先翻译与本人研究相关的部分,其他的部分有时间再补上

no-free lunch定理
1、一种算法(算法A)在特定数据集上的表现优于另一种算法(算法B)的同时,一定伴随着算法A在另外某一个特定的数据集上有着不如算法B的表现;
2、具体问题(机器学习领域内问题)具体分析(具体的机器学习算法选择)。

摘要

声学数据提供了从生物和通信到海洋和地球科学等领域的科学和工程见解.我们调查了声学领域机器学习(ML)包括深度学习的最近进展和变革潜力.ML是一个广泛的技术家族,通常基于统计学,用于自动检测和利用数据中的模式.相对于传统声学和信号处理相关,ML是数据驱动的.给定充足的训练数据,ML可以探索特征和所需标签或动作之间,或特征本身之间的复杂关系.有大量的训练数据,ML可以探索描述复杂声学模型例如人类语音和混响的模型.我们首先介绍ML,然后强调ML在四种声学研究领域的发展:语音处理中的声源定位,海洋声学中的声源定位,生物升学和日常场景中的环境声音.

1.引言

在包括人类语音和动物发声,海洋资源定位和海洋地球物理结构成像的机器解释等非常广泛领域中,声学数据提供了科学和工程见解.在所有领域中,数据分析因许多挑战变得复杂,把数据损坏,缺失或稀疏矩阵,混响和大数据量.例如,单个事件或话语的多次声音得到使得资源定位和语言解释成为机器的一项困难的任务.在许多例子中可以收集大量的数据量,比如声学层析成像(tomography)与生物声学(bioacoustics).随着数据集大小的增加,人工快速识别声学特征和事件所学的工作量变得有限.进一步,数据中可能存在人类认知不易识别的模式.

机器学习(ML)技术使得自动化数据处理和模式识别能力在许多领域取得了广泛的进步,包括计算机视觉,图像处理,语音处理和(地理)物理科学.声学ML是一个快速发展领域,有许多令人信服的解决上述声学挑战的解决方案.在声学领域中基于ML技术的潜在影响以及它们最近受到的关注催生了这篇评论.

广义上,ML是一系列用于自动检测和利用数据模式的技术.在ML中,模式的用途之一是估计数据标签基于测量的属性,比如基于声阵列记录的动物物种或它们的位置.这些测量数据和它们的标签通常不确定;因此,通常应用统计模型.通过这种方法,ML为机器提供了获取知识,或者来"学习"的方法.

ML方法通常分为两个主要分类:监督学习和无监督学习.还有第三类叫做强化学习,虽然这篇文章中没有讨论.在监督学习中,目标是给定有标签的输入输出对,学习一个从输入到输出的预测映射.标签可以类别或实值标量分别对应分类和回归.在无监督学习中,不给定标签,任务是在数据中发掘有趣或有用的结构.一个无监督学习的例子是聚类分析(比如,K-means).监督模型和无监督模型可以结合.也就是说,半监督和弱监督学习方法可以在标签只包含部分或情景信息时使用.

声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第1张图片
图1.声学理解(acoustic insight)可以通过利用物理模型和基于ML的数据驱动模型的优势来提高.分析物理模型(左下角)提供了关于物理系统的基础理解.依赖于计算模型的更精细的模型(右下)可以建模更加复杂的现象.而物理模型依赖于规则,而规则是通过物理证据(数据)来更新的,ML是纯数据驱动的(左上).通过用物理模型扩充ML方法得到混合模型(右上),可以获得物理直觉的力量和数据驱动理解的协同作用.

传统声学研究侧重于开发高级物理模型,并使用这些模型推断环境和环境中物体的特性.基于物理原理模型的复杂性由图1的x轴表明.随着数据量的增加,数据驱动方法取得了显著成功.可获得的数据量在图1中如y轴所示.预计随着物理科学中越来越多的数据可用,我们能够更好地将高级声学模型与ML相结合.

在ML中,最好直接从数据中学习数据的表示模型(这些模型为手头的ML任务提供了有用的数据模式),而不是通过特定的领域知识来设计表示.ML可以建立在物理模型和领域知识的基础上,通过寻找给定任务"最优"表示(比如,特征的变换)来改进解释.ML中的表示是模式,即输入特性,是数据中的特定属性.特征包括人类语音的频谱特征,或物理环境的形态特征.ML管道的特征输入可以是信号(数据)的原始测量值或数据的转换.例如,通过经典的PCA(主成分分析,principal components analysis)方法.更多灵活地表示,包括GMMs(高斯混合模型,Gaussian mixture models)通过最大期望(EM)获得.ML的基础概念一点也不新鲜.例如,LDA(线性判别分析,linear discriminant analysis),一种基础分类模型,早在1930年被提出.作为现代神经网络先祖的K-means聚类算法和感知器算法在1960年被提出.在感知器算法发表后不久,人们对神经网络的兴趣逐渐减弱,直到20世纪80年代反向传播算法被开发出回来.目前,我们正处于对ML和AL原则的"第三波"热潮中.

近几年,声学ML已经取得了显著的进展.相比传统信号处理方法,基于ML的方法可以提供更好的性能.然而,基于ML方法的一个明显局限是它们是数据驱动的,因此需要大量数据集来训练和测试.传统方法比许多ML模型更具有可解释性的优点.尤其在深度学习中,ML模型被认为是"黑盒"-这意味着ML系统的输入和输出之间的中间操作不一定物理直观.进一步,由于no free-lunch理论,为一项任务优化的模型很可能在另一项任务中表现很差.这篇文章的意图是说明,抛开这些挑战,ML在声学中有相当大的潜力.

这篇文章侧重于已经应用于声学领域的ML的重大进展.我们先介绍ML理论,包括DL(深度学习,deep learning).然后我们讨论在五个声学研究领域的理论应用与进展.在第二到四章中,介绍基础的ML概念和一些开发的基础算法.在第五章中介绍DL和声学中的应用.然后我们讨论一下领域的ML理论应用:混响环境中的扬声器定位(第六章),海洋声学中的资源定位(第七章),生物声学(第八章)以及日常场景中的混响和环境声(第九章).尽管我们所设计的领域列表和ML理论的处理并不详尽,我们希望这篇文章可以给未来的声学ML研究有所启发.为了进一步的引用,我们向读者推荐基本优秀的ML和信号处理教科书,它们是对本文所述材料的有用补充:参考文献.2,13,14,16,21-25.

2.机器学习原理

2.1.输入和输出

2.2.监督和无监督学习

2.3.生成:训练数据和测试数据

2.4.交叉验证

2.5.维度之咒

2.6.贝叶斯机器学习

3.监督学习

3.1.线性回归,分类

3.2.支持向量机

3.3.神经网络:多层感知器

4.无监督学习

4.1.主成分分析

4.2.最大期望和高斯混合模型

4.3.K-means

4.4.字典学习

4.5.自动编码网络

5.深度学习

DL(深度学习)是指基于学习过程中训练的一系列非线性特征变换的ML技术.在多个科学领域中,几十年的研究和工程允许优雅的方法进行数据建模.尽管如此,DL社区认为这些模型通常没有足够的能力捕捉数据背后现象的微妙之处,而且可能过于定制化.通常使用高性能的ML模型直接从大量示例中学习表征是有意的.DL利用了许多成功的手工制作的特征共享的基本概念:所有的数据分析都采用不同尺度的滤波器组.这些多尺度的代表包括语音处理中的梅尔倒频谱(Mel frequency cepstrum),多尺度小波(multi-scale wavelets)和图像处理中的SIFT(尺度不变特征变换,scale invariant feature transform).DL通过学习一系列在不同抽象级别捕捉信息的特征模仿这些过程.这些特征之间的非线性允许DNN学习复杂流性.神经科学的发现表明哺乳动物大脑也用同样的方式处理信息.
简言之,一个基于NN的ML管道是DL,如果它满足:(i)特征不是手动提取而是学习得到的,(ii)特征以从低级到高级抽象的分层方式组织,(iii)存在至少两层非线性特征变换.作为一个例子,在大型对话文本语料库上采用DL必须覆盖单词,句子和段落(低级)背后的含义,来进一步提取概念,比如词汇场,体裁与写作风格(高级)
为了理解DL,看看什么不是DL很有用.有一层隐藏层的MLP(也就是,浅层神经网络)不是DL,因为它只能学习一个层次的特征提取.相似的,非线性SVMs和浅层神经网络形似.多尺度小波表示是特征(子带)的层次,但特征之间的关系是线性的.当一个神经网络分类器基于(手工)转换的数据训练时,这个结构可能是深层的,但是它不是深度学习因为第一次迁移没有被学习.
大多数DL结构都是基于DNNs,比如MLPs,它们的早期发展可以追溯到1970-1980s.早期发展30年后,只有小部分深度结构出现了.并且这些结构受限于处理不超过数百维度的数据.在此期间开发的成功例子是两个手写数字分类器:Neocognitron和LeNet5.然而DL的成功始于2000年末期,也被称为第三波人工神经网络浪潮.这个成功得益于可用数据和计算力,包括并行架构和GPUs的大幅增加.然而,一些开源的DL工具箱帮助社区引入了许多新策略.这些方法旨在克服反向传播的局限:它的速度慢,容易陷入不好的静止点(局部最优点或鞍点).引用描述了其中的一些策略,详细回顾见Ref.16

5.1.激活函数和整流器

最早的多层NN使用logistic sigmoids(Sec 3.3)或者非线性激活函数的双曲正切g,

在这里插入图片描述
其中zl在l层的特征向量,al是potentials向量(上一层特征的仿射组合).对于图10(a)中的sigmoid激活函数,仅当a靠近0时,导数明显非零.利用这种函数,在随机初始化的NN中,对于给定的训练样本,一半的隐藏单位被期望激活[f(a)>0],但只有少数几个单元会影响梯度由于a>>0.
事实上,许多隐藏单元对于所有训练样本都有接近0的梯度,对应于这些单元的参数会缓慢更新.这个叫做梯度消失问题.一个直观的解决方法是增加学习率.但是,对于小的a,参数更新将变得太大.由于这个,整体的训练过程可能不稳定:这就是梯度爆炸问题.图10(b)表示了这两个问题.浅层神经网络不一定轻易受到这些问题的影响,但是DNN中它们会变得有害.上述激活函数的反向传播在DNN中是缓慢的,不稳定的,并且会导致较差的解.

为了解决这些问题,已经开发了替代的激活函数.一个重要的类别是整流器单元.整流器时激活函数,对于负值输入为0,正值输入为线性.目前,最受欢迎的是修正线性单元(ReLU),定义为(见图10):

在这里插入图片描述
负电位a的导数为零,a>0的导数为1(虽然在0不可微,ReLU是连续的,然后反向传播是一个次梯度下降.因此,在一个随机初始化的NN中,一半隐藏单元触发并影响梯度,另一半不触发(并且不影响梯度).如果用零均值和方差初始化权重,保持所有NN层上所有电位的变化范围,则大多数单元从至少一半的训练样本中得到显著的梯度,并且NN中所有参数在每个epoch都会得到相同的更新.在实际应用中,蒸馏器的使用导致收敛的大幅提升.关于梯度爆炸,一种成为梯度裁剪的有效解决方案只需对梯度设置阈值.
声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第2张图片
图10.梯度消失和梯度爆炸问题.(a)sigmoid和ReLU激活函数.(b)当使用sigmoid激活函数时,作为网络权重W的函数的损失L显示为一个景观.这样的景观是丘陵地带,由悬崖隔开的大高原.基于梯度的更新(箭头)在高原(绿点)消失,在悬崖爆炸(黄点).另一方面,通过使用ReLU,反向传播不太受梯度爆炸问题的影响,因为在相关成本景观中有很少的高原和悬崖.

5.2.端到端训练

尽管对成功的DL模型很重要,但是仅仅解决梯度消失或梯度爆炸问题对反向传播是不够的.避免较差的驻点在DNNs中也很重要.避免这些驻点的开创性方法包括通过非监督方法连续训练浅层结构来训练DNNs.由于这种情况下,各个层最初是按顺序训练的,使用前一层的输出而不联合优化前一层的权重,这种方法被称为 无监督贪婪逐层预训练.

然而,无监督与训练的好处并不总是很清楚.许多现代DL方法更倾向于端对端的训练网络,从初始化开始联合训练所有网络层,而不是先训练各层.它们依赖于梯度下降的变体来对抗糟糕的驻点.这些方法包括随机梯度下降,自适应学习率和动量技术.在这些概念中,出现了俩个主要概念:(i)先随机探索结构,然而利用它们进行退火,(ii)形成负梯度移动均值的动量成为速度.这有助于更快地学习,尤其是对于噪声梯度或高曲率损失函数.

Adam基于自适应学习率和距估计.它是目前最受欢迎的DNNs优化方法.Adam在第t步升级每个权重wi,j如下:

在这里插入图片描述
其中 η > 0 η>0 η>0表示学习率, ε > 0 ε>0 ε>0表示平滑乡, m ^ i , j t \hat{m}^t_{i,j} m^i,jt v ^ i , j t \hat{v}^t_{i,j} v^i,jt表示估计速度的一阶矩和二阶矩,对于 0 < β 1 < 1 0<\beta_1<1 0<β1<1 0 < β 2 < 1 0<\beta_2<1 0<β2<1,如下
声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第3张图片
梯度下降方法在参数初始化附近会陷入局部极小,导致欠拟合.相反的,随机梯度下降和变形期望找到低损失和更易过拟合的解.当训练相比于训练样本数量具有多个自由度的模型时,会发生过拟合.维度之咒(章2.5)表明,在不假设数据的情况下,训练数据的数量会随着自由参数的数量增加指数级的增加.在经典NN中,如果一个输出特征被所有输入特征影响,那个这一层是全连接的(FC).给定一个尺寸为N的输入和尺寸为P的特征向量,则一个FC层由N*(P+1)个1权值组成(包括偏差项,见3.3).考虑到尺寸N可以很大,FC NN容易过拟合.因此,初始化权重时应该特别注意,必须采用特定的策略来进行一些规范化,比如dropout和批标准化.

通过dropout,在训练的每次epoch中,对于一个样本的不同单元按照概率1-p ( 0 < p ⩽ 1 00<p1)被随机剔除.这鼓励NN单元专门检测特定模式,随后特征变得稀疏.在实践中,这也使优化更快.在测试中,使用所有单位,并将预测值乘以p(所有单位都表现得像是没被剔除训练的)

通过批规范化,单元的输出对给定的小批进行了规范化.规范成标准特征(单元方差为零均值)后,特征被移动并重新缩放到一个通过反向传播学习的变化范围.这就避免了各个单元必须不断适应它们的输入带来的巨大变化(一个叫做内部协变量偏移的问题).批规范化由轻微的正则化效果,允许更高的学习速率和更快地优化.

5.3.卷积神经网络

卷积NN(CNNs)是替代用于时间或空间相关信号的传统全连接NNs的替代方案.他们通过以来两个主要概念显著地限制了模型参数的数量和内存需求:局部感受野和权值共享.在全连接NNs中,对于每一层,每个输出与每个输入相互作用.这造成了对于大型输入维度的权重过多[权重数量为O(NP)].在CNNs中,每个输出单元只与对应于给定过滤器(filter)(和过滤器位置)的输入子集相连接.这些自己构成了局部感受野.这显著地将单个过滤器的卷积层前向传递的NN乘法操作的数量减少至O(NK),其中K通常比N和P小100倍.另外,对于一个给定的过滤器,相同的K个权重被所有感知野功用.因此,每一层的参数数量和权重从O(N*P)减少至O(K).

在CNNs中的权重共享提供了另一种重要属性叫做平移不变性.因为对于一个给定的过滤器,权重对于所有感知野是相同的,过滤器必须很好的模拟在空间或时间上平移的信号内容.当刺激发生在重叠的感受野内时,对相同刺激的反应始终不变.神经科学的实验揭示了哺乳动物可视皮层的单细胞中这类行为(自相似感受野)的存在.这一原理使CNNs考虑在其输入端放置具有线性滤波器组的卷积层.

声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第4张图片
图11.传统CNN的第一层.对于这个说明,我们选择了第一个隐藏层来提取三个特征映射.过滤器的尺寸是K=3*3.

图11提供了一个卷积层的说明.卷积层对信号x采用了3个过滤器来生成3个特征图.定义在第l层的第q个输入特征图为 z q ( l − 1 ) z_q^{(l-1)} zq(l1),第l层的第q个输出特征图为 z ˇ q ( l − 1 ) \check{z}_q^{(l-1)} zˇq(l1),第l层卷积层从输入特征图 C i n C_{in} Cin生成新特征图 C o u t C_{out} Cout如下:
声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第5张图片
其中*是离散卷积运算, w p q ( l ) w_{pq}^{(l)} wpq(l) C o u t ∗ C i n C_{out}*C_{in} CoutCin学习的线性过滤器, b p ( l ) b_p^{(l)} bp(l) C o u t C_{out} Cout学习的标量偏差,p是一个输出通道索引,q是输入通道索引.将所有特征图 z p ( l ) z_p^{(l)} zp(l)堆叠在一起,隐藏特征集合表示为张量 z ( l ) z^{(l)} z(l),其中每个通道对应一个给定的特征图.

例如,一个光谱图由一个N*C的张量表示,其中N是信号长度,信道数C是频率子带的数目.卷积层保证了输入张量的空间或时间分辨率,但通常会增加通道数量: C o u t ⩾ C i n C_{out} \geqslant C_{in} CoutCin这就产生了一个冗余表示,允许特征张量的稀疏性.只有小部分单元会被给定刺激激活:这个概念也受到视觉研究实验的影响.使用张量是一种常用的做法,允许我们以一种简洁的方法表示CNN结构,见图12.

声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第6张图片
图12.用于将图像分类为10种可能的类别中的深层DNN结构.卷积层通过增加张良中的通道数创建冗余信息.ReLU用于捕捉数据的非线性.最大池化操作减少空间维度,以获得相对于对象精确位置的抽象性和鲁棒性.当张量变平坦(例如,空间维度减少为1*1).每个系数作为一个完全连接的NN分类器的输入.特征维度,过滤器尺寸以及输出类别的数量仅仅为了说明.

池化也立足于神经科学关于哺乳动物视觉皮层的发现.视觉皮层的神经细胞将信息压缩以获得对抗相同刺激的微小扭曲的不变性和鲁棒性.更深的张量会随着更多的通道和更小的信号分辨率而变长.这里,CNN结构越深,CNNs相对于感受野中刺激的确切位置就越鲁棒.最终张量变得平坦,意味着它简化为一个向量.张良中的特征不再在时间或空间上相关,并且它们可以作为一个分类器的输入特征向量.输出张量并不总是完全平坦的,但是之后张量被映射成一个向量.一般来说,使用具有两个隐藏FC层的MLP,并且通过反向传播或变体对结构进行端对端的训练,见图12.

这种结构的类型是经典的现代图像分类NN例如AlexNet和ZFnet,但是已经在Neocognitron和LeNet5中采用.主要的区别在于现代结构可以处理更高维的数据,因为它们采用了之前提到的策略(比如整流器,Adam,dropout,批规范化).DL的一个意图是通过采用特殊结构,比如初始模块,深度可分类卷积,跳跃连接和密集体系结构,使这种CNNs尽可能深,同时参数最少.

自从2012年,这种架构已经引领了计算机视觉领域的最好分类器,甚至在ImageNet挑战中可以与人类的表现相媲美.关于声音应用,这种结构已经用于宽带DOA估计,其中每个类对应于给定的时间帧.

5.4.迁移学习

从头开始训练深度分类器需要大量标记数据集.在许多应用中,这种数据集很难获得.一种替代方案使使用迁移学习.迁移学习重用了网络的一部分,这个网络为给定ML任务,在一个大型的,潜在的不相关的数据集上训练的.迁移学习的关键想法是深度网络的早期阶段学习的通用特性可能适用于其他特性.一旦一个网络已经学习了这样一个任务,通常可以一处网络末端专门针对训练任务定制的前馈层.然后这些被新的分类器或回归层替换,然后学习过程在新任务上发现这些最后层的适当权值.如果先前的表示捕获了与新任务相关的信息,则可以用更小的数据集来学习他们.在这种情况下.深度自动编码器(见章4.5)可以用来从大型未标记数据库学习特征.学习后的编码器可以接下来用作特征提取器,然后再一个小的标记数据集上训练分类器(见图13).最后,分类器训练完后,所有层可以通过端对端的执行几个反向传播步骤进行微调(fine tuning).许多现代DL技术都依赖于这一原理.

声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第7张图片
图13.从(a)无监督方法训练的自动编码器,迁移到(b)监督分类问题.本图说明了自动编码器结构以及无监督预训练,一种初始化NN最优化的早期方法.

5.5.专业架构

在分类之上,还存在无数的NN和CNN架构.增强型CNNs,全卷积和U-net架构被广泛应用于回归问题,比如信号增强,分割或目标定位.递归NN(RNNs)是经典的前馈NN的替代,用于处理或生成可变长度的序列.特殊的,长短期记忆网络(LSTMs)是RNN一种特殊类型,在一些数据中时间相关性显著的多个应用中产生了优秀的结果.这类应用包括语音处理和自然语言处理.近期,NNs在无监督学习任务中已经取得了很多关注.一个主要例子是使用可变的自动编码器和生成对抗网络(GANs)生成数据.后者依赖于一个基于博弈论的原始想法.它在生成网络和判别网络之间执行一个两人博弈.生成器学习数据分布以根据随机种子生成假的数据.同时,判别器学习真实和虚假数据的边界,以便能够将假数据与训练集的数据区分开来.两个NN互相竞争.生成器试着欺骗判别器使假数据与训练集的数据区分开来.

5.6.声学应用

DL已经在声学领域取得了充满希望的进展.相比于各自领域的传统的或人工设计的信号处理方法,数据驱动的数字信号处理方法在各自领域提供了良好的结果.除了性能的提升,DL(一般也有ML)提供了解决声学人物的通用框架.可是在各个子领域开发高度专业化算法的一种范式.然而,一种跨越所有领域的重要挑战使获取足够的训练数据.为了在音频处理任务中正确训练DNNs,可能需要数小时的代表性音频数据.因为可能无法获得大量的训练数据,DL并不总是可行的.虽然训练数据的缺乏可以部分通过使用合成训练数据或数据扩充来解决.随后我们会强调在声学领域DL应用的最新进展.

声学和音频信号处理中两个从DL受益的任务是声音事件捕捉和资源定位.这些方法用深度学习架构取代了基于物理的声学传播模型或手工制造检测器.在Ref105中,卷积递归NNs在2017年声学场景和事件预测与分类(DCASE)挑战中的声音时间检测任务中去得到最好的结果.在Ref96中,CNN仅使用STFT相位分量来估计宽带DOA.CNN采用定向相应功率相位变化(SRP-PHAT)波束形成技术获得了具有竞争力的结果.CNN采用合成噪音训练,对语音信号有良好的泛化能力.在Ref107中,事件检测和DOA估计任务被组合到一个基于卷积RNNs的信号DNN架构中.该系统适用于合成的,真实的,混响和消声数据,其DOA性能与MUSIC(多信号分类)相当.在Ref104,DL用于使用单个水听器定位浅海波导中的海洋资源,如图14所示.
声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第8张图片
两个深层残余NNs(每个50层,ResNet50)使用数百万个合成声场训练来定位声源的范围和深度.与常用的基于遗传算法的反演方法相比,ResNet50 DL模型获得了具有竞争力的震源范围和深度预测误差.这里定义的源(范围或深度)预测误差是最大误差小于给定值的预测值百分比,给定的范围和深度值在图14中沿x轴定义.

DL还应用于语音建模,源分离和增强.在Ref110中提出了一个基于光谱聚类的深度聚类方法,它使用DNN来寻找谱图中每个时频区域的嵌入特征.这适用于分离两个性别相同的说话人的问题,也适用于同一类别的多个活跃来源的问题.在Ref111中,DNNs被用于从一个简单麦克风录制的语音中去除回响.该系统利用语音信号的短时傅里叶变换进行工作.实现了两种不同U-net架构,以及利用GAN及逆行对抗训练.在大多数情况下,所提出的DL架构的去冗余性能优于竞争方法.

与声学一样,地震勘探的研究传统上集中在先进的信号处理算法上,只有偶尔应用模式识别技术.ML方法,特别是DL方法,最近在地震勘探应用中有了显著的增长.利用DL模型解释地质构造要素是该领域的一个重要方面.地震图像对这些构造(如盐穹顶、通道、断层和褶皱)的分类和解释面临着若干挑战,包括处理海量的三维地震数据,以及地质学家的稀疏和不确定性人工图像注释.通过自动化这些过程可以获得许多好处。最近发展起来的几种ML技术通过ML算法构造适应特定数据的属性,而不是手工制造它们.

利用三维地震断层图和三维地震断层图(Ref122)对三维断层进行了识别。在参考文献124中,开发了一种基于带有GANs的3D CNN的半监督相分类器,以处理来自新勘探领域的大量数据,这些数据可能很少有标签。在地震数据后处理方面也取得了一些有趣的进展,包括自动化倍半岩相分类.

6.混响环境中声源定位

语音增强是音频信号处理中的核心问题,在手机,免提系统,人车通信,智能家居雄助听器等多种设备上都有商业应用.语音增强算法设计的核心成分是声源定位.声源定位也可直接应用于许多其他音频相关任务.例如,自动摄像机控制,电话会议系统和机器人音频.

由大量数量的应用驱动,定位问题已经取得了显著的研究关注,造成了过去20年内提出了过多的定位方法.尽管如此,在不利条件下,即存在背景噪音和混响的情况下,鲁棒定位仍然是一个主要挑战.

被IEEE音频和声学信号处理技术委员会认同,声源定位和追踪(LOCATA)的最近挑战已经创建了一个数据库来支持研究团队测试他们的算法.挑战数据库包括来自真实场景的声音记录.利用这些数据,可以评估源定位算法在实际场景中的性能.

利用NN进行音频源定位的监督学习越来越受到人们的关注.在IEEE杂志上关于信号处理的选定主题"动态真实场景中的声源定位与跟踪"中的最近一期中,3篇论文使用NNs的变体进行源定位.我们希望这种趋势继续下去,重点放在不需要大量标记数据的方法上.这种标记数据在定位问题中很难取得.例如,在Ref129中,提出了一种弱标记ML范式.这种方法使用少量已知位置的标记样本和大量未标记样本集,只知道它们的相对物理顺序.

在这个简短的调查中,我们探讨了两种基于学习的方法.第一种是基于GMM分类的无监督方法.第二种是基于流形学习的半监督方法.

尽管近年来流形学习定位方法取得了一定的进展,但仍有一些主要的挑战有待解决,如对阵列(array constellation)和声环境变化的鲁棒性,以及多个并发声源的情况.

6.1.基于最大期望过程的定位和跟踪

在本章中,我们将回顾一种无监督学习方法,用于在噪声和混响环境中利用空间分布麦克风阵列来定位和跟踪未知数量的并发扬声器.我们把定位问题归结为一个分类问题,其中,度量(或提取的特征)可以与侯选位置的网格相关联.P={ p 1 , . . . , p M p_1,...,p_M p1,...,pM},其中M=|P|表示候选数量.扬声器的实际数量总是显著的比M低.

语音信号和附加噪音一起被一个麦克风阵列(N>1)捕获.双耳的例子(N=2)被Ref130提出.我们假设一个简单的声传播模型,它有一个主要的直接路径和一个潜在的空间扩散混响尾.STFT域中第n个麦克风信号为:
在这里插入图片描述
其中t=0,…,T-1是时间索引,k=0,…,K-1是频率索引, g m , n ( k ) g_{m,n}(k) gm,n(k)是从第m个位置的扬声器到第n个麦克风的直接路径传递函数.

在这里插入图片描述
其中 T s T_s Ts是样本周期, τ m , n = ∣ ∣ p m − p n ∣ ∣ / c \tau_{m,n}=||p_m-p_n||/c τm,n=pmpn/c 表示侯选位置 p m p_m pm和麦克风位置 p n p_n pn之间的TDOA,c是声速.TDOA可以预先从预先定义的网格点和阵列几何体(假定已知)计算.

s m ( t , k ) s_m(t,k) sm(t,k)是扬声器在网格点m发出的语音信号, v n ( t , k ) v_n(t,k) vn(t,k)是环境噪音或空间扩散的混响尾波.指示信号 d m ( t , k ) d_m(t,k) dm(t,k)显示了扬声器m是否在第(t,k)个STFT bin处于活动状态.

声学机器学习:理论和应用 (Machine learning in acoustics: Theory and applications)_第9张图片
注意,根据稀疏性假设,向量 d ( t , k ) = d(t,k)= d(t,k)=vec m _m m{ d m ( t , k ) d_m(t,k) dm(t,k)} ∈ \in { e 1 , . . . , e M e_1,...,e_M e1,...,eM},其中vecm{·}是沿着第m个索引的元素的连接,是一个"独热(one-hot)"向量(第m项为1,其他项为0).N个麦克风信号以向量形式连接.
在这里插入图片描述
其中 z ( t , k ) , g m ( t , k ) 和 v ( t , k ) z(t,k),g_m(t,k)和v(t,k) z(t,k),gm(t,k)v(t,k)是对应的连接向量.

6.2.基于流形学习的声源定位和跟踪

7.海洋声学中声源定位

8.生物声学

9.日常场景中的混响和环境声

9.1.混响

9.2.环境声

9.3.面向人类层面的环境声和场景解读.

10.总结

你可能感兴趣的:(论文翻译,科研,神经网络,声学,深度学习)