论文分享(三)——加权采样音频对抗样本攻击

论文链接:https://arxiv.org/abs/1901.10300

一.介绍

文章提出了加权音频对抗样本的概念,着重于样本失真的数量及权重来加强攻击。此外,在损失函数中应用了降噪方法,以使对抗性攻击更加难以察觉。

音频对抗样本已经被证明可以很好的扰乱ASR(Automatic speech recognition)系统,使任何输入的音频翻译为目标句子。然而生成音频对抗样本的过程要比图像对抗样本难的多,仍旧存在一些技术挑战需要去被解决:

C1. 生成一个音频对抗样本,需要大量的计算资源和时间
C2. 录音和重放这些常见的音频操作都很容易引起额外的噪声,因此音频对抗样本的健壮性很差。
C3. 不同于图像领域,基于p范数的准则被拿来作为损失函数的一部分去产生对抗样本,在音频领域还没有一个研究来找到哪一种准则更加合适。

为此,在这篇论文中通过提出两种新的技术,WPT(Weighted Perturbation Technology)和 SPT( Sampling Perturbation Technology)来构建一个针对ASR系统快速,鲁棒的对抗样本攻击

在生成对抗样本的过程中,WPT通过调整音频在不同位置时失真的权重,并因此更快的产生对抗样本,还提高了攻击效率。(解决C1)

同时,通过基于语音识别模型中上下文相关性的特征减少干扰点的数量,SPT可以提高音频对抗性示例的鲁棒性。(解决C2)

更深层次,论文调查了不同的准则作为损失函数的一部分来生成音频对抗样本并且提供了一个参考给未来的相关领域的研究者。(解决C3)

最后,论文指出,相比现在最先进的方法,所提出的方法可以产生更加鲁棒的音频对抗样本在4-5分钟的较短时间内,这是一个很大的提升。

二.相关工作

音频对抗样本主要被分为两类:

音频—>标签(speech-to-label):这种方法主要被图像领域相似的一种方法所启发1,2。由于目标句子只能从特定的标签中被选择,这种方法的实际应用是由局限性的。

音频—>对应文本翻译(speech-to-text)3: Carlini & Wagner4首先将音频对抗样本应用于音频到文本的模型中,并且能够使得ASR将任何输入的音频输出为特定的目标句子。然而,音频的鲁棒性受到了损害并且它们的大多数音频对抗样本在添加了不可察觉的随机噪声后会失去对抗标签。

随后,在CommanderSong5中实现了实用的透过空气的音频对抗攻击,但是他们的方法只是在音乐片段上有效;另外,Yakura & Sakuma6提出了另一种物理世界的攻击方法。无论如何,这两种方法都会在原始音频中引入不可忽略的噪声。 不幸的是,所有这些方法都需要几个小时才能生成一个音频对抗示例,包括最新的工作7

PS:相关工作这个模块,放以前我是基本略过,或者粗略的看一眼。但是音频对抗样本这个部分,刚开始接触,自己觉得多了解一些有助于拓展思路,理解整体的这个领域的发展。看了几篇相关工作后,发现对于我这种论文还没有读多少的人来说,简直是“横财收集处”。发现以前的自己太浮躁了,之前的看过的论文相关工作部分我日后也一定都补上。

三.背景

3.1 威胁模型

在对攻击进行更加细节的描述之前,我们需要选择一个ASR模型作为可能的威胁模型。通常需要满足下面3个条件:

  1. 核心组成应该是RNNs,如LSTM,这被目前的ASR系统广泛接受。
  2. 目前最先进的音频对抗攻击方法应该能够应用在上面,相应的实验结果可以被用来作为一个本文方法的baseline。
  3. 需要是开源的,这样可以在上面进行白盒测试。

基于以上条件,选择Deepspeech8模型作为实验的威胁模型,开源的ASR系统使用CTC方法9和LSTM作为主要组成。进行的是白盒攻击。

3.2 音频对抗样本

论文分享(三)——加权采样音频对抗样本攻击_第1张图片
生成对抗性示例的过程可以看作是对下面等式中所示的预定义损失函数l(.)使用梯度下降来更新x的过程。

在这里插入图片描述
在上式中,lmodel是ASR模型中所用到的损失函数,在本文实验中即CTC-Loss;lmetric是用来评估所产生的对抗样本和原始样本之间差异的,即失真程度。

3.3 评价指标

SNR(Signal-to-noise ratio):评估相对于原始音频x,失真δ的噪声程度。扰动越小,SNR越大。
在这里插入图片描述
Px和Pδ相应的代表原始音频和噪声的能量(这个值怎么计算得,能量应该怎么理解)

WER:单词错误率,WER=(S+D+I)/N*100%,S,D,I分别表示替换,删除,插入得次数,N是总的单词数。

Success Rate:对抗样本被ASR系统错误的识别为恶意的目标文本的比例

Robustness Rate:在对输入进行转换t(.)后(相当于添加噪声),对抗样本仍旧保持对抗性的比例。

四.方法

这一章详细的讲了提出的两种新技术,采样扰动技术和权重扰动技术的细节。并且还调查了不同的准则,来找出最适合音频的实验标准。

4.1 采样扰动技术(sampling perturbation technology)

所提出的SPT通过减少扰动点的数量来实现提高音频对抗样本的鲁棒性。论文通过使用CTC损失作为一个例子来解释为什么SPT有效。

我们使用x表示一个音频向量,p表示一个短语,是x的语义信息,y表示x的分布解码为p的概率。xi是x的一帧,yi是被xi变换的字符上的概率分布。

在CTC过程中(下图左半边),从x到p的过程为:1.输入x 2.得到标记序列π 3.整合重复的字符并删去“-“标记 4.输出预测的短语p
论文分享(三)——加权采样音频对抗样本攻击_第2张图片
因为π是x的标记序列,所以我们说我们说y下π的概率是每个yπii概率的乘积。相对于y,对于一个给定的短语p,会有一系列的预测序列π∈ Π(p, y),最终我们计算Pr(p|y),短语p在y分布下的概率,再通过对集合中每个π的概率的求和:
在这里插入图片描述
在传统的音频对抗样本攻击上,如果我们想要转换音频x到目标t,我们会对每个πi添加少量的扰动来使得t=argpmax Pr(p|y)。然而,我们同样也可以得到相同的结果通过固定Πjn-myπjj的部分,并且扰动别的部分来使得Πkmyπkkkmyπ’k’k,其中y’k是扰动π’k的新的概率分布
论文分享(三)——加权采样音频对抗样本攻击_第3张图片
基于上面的公式,可以实现减少扰动的音频向量数量从n到m。根据最终的评估来看,m可以极小于n。

由于在论文方法所生成的音频对抗样本中大多数的点都和那些在原始音频中的点相同,这使得对抗样本展示出和原始样本非常相似的性质。对比于对抗样本所有的点都被扰动,环境噪声有更低的概率影响基于SPT的对抗样本

Athalye等人10提出了EOT(Expectation Over Transformation)算法来构建能够维持在一个选中的转换分布T上的对抗性质的对抗样本。不幸的是,EOT的局限性在于它只提高了在相同或相似T分布下噪声的鲁棒性。在没有相似性分布的假设下,对抗性质会很大程序受到损害。作为一个对比,论文所提出的方法在生成对抗样本时,并不需要和分布相关的先验知识,因此具有更一般的鲁棒性。

4.2 权重扰动技术(Weighted perturbation technology)

WPT通过调整在不同位置扰动的权重,可以减少生成对抗样本花费的时间。

现有的问题:通过分析生成音频对抗样本的过程,发现转换的短语p’越接近目标文本t,生成的过程时间越长。为了将过程划分为不同的阶段,引入了Levenshtein距离,一个字符串准则来评估从一个串到另一个的最少的单个字符的编辑数量(插入,删除,替换),根据论文的数据,平均的时间损失在L距离从3到2,2到1,1到0的百分比为,7.52%,15.43%,32.16%,他们的总和超出了生成时间的55%。在这些阶段花费很多时间的原因是当L距离很小时,大多数的这时的点不再需要被扰动,除了那些使得L距离不为0的点,这些点被称为关键点

一方面,如果我们给这些关键点更大的权重,在这些阶段花费的时间将会减少;另一方面,如果全局搜索的步长能够减少到迭代的次数,那么我们就可以避免由于过度的扰动,错失一个更加完美的对抗样本。这两个方面将会使得整体的速度加快。

WPT的步骤:相应的,WPT 分为两个步骤第一步着力于通过提高关键点的权重来缩短当L距离等于1时花费的时间。因此,我们需要知道哪些点是关键点

ASL模型是一个帮助我们定位在音频中这些关键点的模型。如上面的figure 2右边所示。ASL的1.输入是现在的转换短语p’和目标t。 2.在比较了p’和t之后,得到不同的字符。 3.找到这些字符在标记序列π中的位置。4.输出在音频向量x中的间隔集合Xk5.最后,这些在xk中k位置的扰动被乘以权重w,所改进的损失函数公式如下所示:
论文分享(三)——加权采样音频对抗样本攻击_第4张图片
其中,α是一个对应δ的权重向量,并且如果向量下标i属于区间集Xk,就给这些关键点更大的权重w。

除此之外,当缩减L距离到0时,WPT到达第二步来减少学习率lr:
在这里插入图片描述

常数β在(0,1)之间,在更新lr之后,我们可以计算在每一个迭代过程的扰动δ
在这里插入图片描述
∇δ`(x, δ, t)表示的是相对于δ的l的梯度。

优点: Carlini&Wagner尝试给序列π的每个字符设置不同的权重来解决这个问题4。事实上,这会花费成本过高的计算去找到对每个字符最适合的权重。所以,他们首先通过使用常规的ctc损失给出一个可行的解决方案x0,然后基于x0使用它们改善的方法。然而,这样并不是一个完美的解决方案去解决之前提到的问题。而WPT就有相应的3个优势

  1. 他们的方法首先需要去找到一个可行的方案x0,这意味着他们不能缩短在生成一个成功的对抗样本之前的时间花费。事实上,这个阶段的时间占总时间的55%以上。论文所提出的方法则可以得到关键位置间隔Xk在任何的迭代过程中,不需要先获得x0。然后,通过调整δ的权重w来更快的收敛。
  2. WPT对贪婪解码器和波束搜索解码器均有效,这是两种结合CTC的搜索方式来获得对齐π,而他们的方法只针对贪心解码器有效。原因是:(1)除了调整单一的字符或标记的权重,论文所提出的方法还调整了在音频向量上对应字符的一个连续间隔的权重。这个失真基于连续的间隔对波束搜索解码器是有效的。(2)**WPT通过当前的对齐π而不是一个固定的π0**来更新权重w,因此不会局限于贪心解码器。
  3. 当扰动δ减小时,学习率lr逐渐减小,这可以避免由于过长的步长导致的过多的扰动的问题,使得更好的对抗样本可以被更快的发现。

4.3 所用规范的调查

lmetric的目的是约束对抗样本和原始样本的不同,尽可能减小失真程度。论文引入Total Variation Denoising(TVD)来减少噪声扰动并使得对抗音频听起来更像是原始音频。TVD的原理:具有过多且可能是虚假细节的信号具有较高的总变化量,这种方法主要用于噪声消除过程中11。在TVD过程后,可以消除对抗样本中大部分的impulse,使得扰动更加不可察觉。基于TVD的lmetric可以被表示为接近程度E(δ)和总的变化量V (x + δ)之和:

论文分享(三)——加权采样音频对抗样本攻击_第5张图片
其中γ是用来平衡E(δ)和V (x + δ)。

实验中还对现有的l(.),l2(.),cor(.)(信息检索领域中的余弦距离)进行了研究,与论文所提出的方法进行了对比。

五.实验结果

5.1 数据集和实验设置

数据集:Mozilla Common Voice dataset(MCVD),一个公共的可获得的音频数据集,由至少占用70GB的磁盘空间的语音样本组成。实验使用该数据集的前100个测试样例来生成语音对抗样本,除非另有说明,最终的实验结果都是这100个示例的均值。

环境:Intel® Xeon® CPU E5-2603@ 1.70GHz, 16G Memory and GTX 1080 Ti GPU,在Ubuntu服务器(16.04.1)上进行实验。

5.2 实验

5.2.1 评估对抗样本

为了展示方法的有效性,论文选取C&W的攻击4和CommanderSong5来作为对比。论文所提出的方法选取扰动点的比例为75%。实验结果如表1所示:
论文分享(三)——加权采样音频对抗样本攻击_第6张图片
从表1中可以看到,论文所提出的方法通过着力于key points并且动态的调节学习率来加速收敛将生成对抗样本的时间从1小时缩短到小于5分钟

5.2.2 评估对噪声的鲁棒性

在上面介绍评估指标时提到过,通过添加噪声到对抗样本中检测其是否还具有对抗性来评估对抗样本的鲁棒性。添加噪声的过程类似于应用函数t~T到输入音频上。在实验中,设置T为边界±Δ的均匀分布。相应的添加噪声到基于SPT,EOT,SPT-EOT的对抗样本上。然后转录新获得的音频并最终计算WER和鲁棒率。如果新转录的句子和之前的一样,那么就说明这个对抗样本成功的绕过了噪声的防御。实验结果在表2中展示了出来:

论文分享(三)——加权采样音频对抗样本攻击_第7张图片
从WER的角度看,大多数的基于SPT的方法表现得比EOT的方法要好。当对抗样本的分布和噪声的分布相似时,基于EOT的音频对抗样本表现出高鲁棒率。而基于SPT的音频表现出更加一般的鲁棒率。具体一点,越小的比例(扰动点的占比)会带来更好的鲁棒性,但是过于小的比例会使得SNR和成功率的降低。而基于SPT-EOT的方法结合了两种方法的优点并且在各个方面表现良好,因此基于SPT-EOT结合的方法在未来的工作中应该能被更好的运用来提高鲁棒性

5.2.3 对不同规范的调查

在这个实验中,基于lmodel和前文所提到的四种不同lmetric产生对抗样本,对于每个特定的损失函数,都使用SPT和WPT的方法进行攻击。实验结果在表3中展示了出来:
论文分享(三)——加权采样音频对抗样本攻击_第8张图片
从表中可以看出,l0在各项评测指标中都具有最好的表现。除此之外,因为TVD过程消除了更尖锐的脉冲噪声,使得所添加的扰动更加难以察觉。因此,虽然在最终评估的数值上的提升没有那么明显,但是它的对抗音频听起来更好。

六.总结

本文提出了一种加权采样音频对抗示例攻击。 实验结果表明,该方法速度快,噪声少,鲁棒性强。 这是第一个将扰动点的数量和权重的因子引入音频对抗样本的生成中的。 论文还引入了TVD以改善损失函数。另外,对损失函数有效性的研究表明,在图像和音频方面的对抗样本之间存在一些差异。对将来如何构建更合适的针对特定领域的损失函数提供了指导。


  1. Moustafa Alzantot, Bharathan Balaji, and Mani Srivastava. Did you hear that? adversarial examples against automatic speech recognition. arXiv preprint arXiv:1801.00554, 2018. ↩︎

  2. Moustapha Cisse, Yossi Adi, Natalia Neverova, and Joseph Keshet. Houdini: Fooling deep structured prediction models. arXiv preprint arXiv:1707.05373, 2017. ↩︎

  3. Zhuolin Yang, Bo Li, Pin-Yu Chen, and Dawn Song. Characterizing audio adversarial examples using temporal dependency. arXiv preprint arXiv:1809.10875, 2018. ↩︎

  4. Nicholas Carlini and David Wagner. Audio adversarial examples: Targeted attacks on speech-to-text. arXiv preprint arXiv:1801.01944, 2018. ↩︎ ↩︎ ↩︎

  5. Xuejing Yuan, Yuxuan Chen, Yue Zhao, Yunhui Long, Xiaokang Liu, Kai Chen, Shengzhi Zhang, Heqing Huang,Xiaofeng Wang, and Carl A Gunter. Commandersong: A systematic approach for practical adversarial voice recognition. arXiv preprint arXiv:1801.08535, 2018. ↩︎ ↩︎

  6. Hiromu Yakura and Jun Sakuma. Robust audio adversarial example for a physical attack. arXiv preprint arXiv:1810.11793, 2018. ↩︎

  7. Yao Qin, Nicholas Carlini, Ian Goodfellow, Garrison Cottrell, and Colin Raffel. Imperceptible, robust, and targeted adversarial examples for automatic speech recognition. arXiv preprint arXiv:1903.10346, 2019. ↩︎

  8. Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, et al. Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567, 2014. ↩︎

  9. Alex Graves, Santiago Fernández, Faustino Gomez, and Jürgen Schmidhuber. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning, pages 369–376. ACM, 2006. ↩︎

  10. Anish Athalye, Logan Engstrom, Andrew Ilyas, and Kevin Kwok. Synthesizing robust adversarial examples.arXiv preprint arXiv:1707.07397, 2017. ↩︎

  11. Leonid I Rudin, Stanley Osher, and Emad Fatemi. Nonlinear total variation based noise removal algorithms.Physica D: nonlinear phenomena, 60(1-4):259–268, 1992. ↩︎

你可能感兴趣的:(论文阅读,音频对抗样本,深度学习)