论文《针对黑盒智能语音软件的对抗样本生成方法》
一、论文中提到的相关名词解释
1.1什么是对抗样本?
所谓对抗样本就是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使机器做出错误的判断。
比如原来为雪山的图片,添加了扰动之后,我们人眼看上去依然是雪山,但是在模型中,它会被错误地识别为狗。
正因为对抗样本的存在,深度学习所应用的各领域的安全性难以得到保障。比如在自动驾驶领域,车载语音识别系统在输入时被外加的细微扰动所攻击,语音识别系统将错误地识别乘客的指令,这给自动驾驶系统带来严重的安全隐患。
在构造对抗样本的过程中,无论是图像识别系统还是语音识别系统,根据攻击者掌握机器学习模型信息的多少,可以分为白盒攻击、黑盒攻击。
1.2白盒攻击与黑盒攻击
白盒攻击:攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。
黑盒攻击:攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,比如可以通过传入任意输入观察输出,判断输出。
1.3无目标攻击与有目标攻击
无目标攻击:被攻击的模型的输出只要是错误的,就可以了。如原图像是小猫,添加干扰形成对抗样本输入到模型中,模型输出错误,输出结果可以是小狗也可以是小羊或者是其他,只要求是错误的。
有目标攻击:被攻击模型的错误输出为特定类别。如原图像是小猫,生成的对抗样本使DNN模型错误分类为攻击者想要的小狗。
1.4研究对抗攻击的意义如下:
(1)能让机器学习模型处理大规模数据;
(2)以“计算机速度”处理攻击威胁;
(3)不依赖数据的明显特征,发现实际应用中的各种内在威胁;
(4)阻止已知和未知的恶意软件;
(5)阻止恶意软件的提前执行;
(6)优化模型,让分类模型达到更加高的分类准确率和更加低的错误率。
二、论文主要内容
在实际应用中,通常攻击者很难获得识别模型的结构信息,且攻击是为了达到特定目标(例如,使得某一段语音识别成特定的指令),因此黑盒的目标攻击在实际应用中更具有攻击性与隐蔽性。
为实现面向语音识别系统的黑盒目标攻击,本文提出了一种针对黑盒智能语音软件的目标对抗样本生成方法,即萤火虫-梯度对抗样本生成方法。
2.1论文贡献
之前的针对黑盒语音识别系统提出的对抗样本生成方法的局限性:
本文提出的针对黑盒智能语音软件的目标对抗样本生成方法——萤火虫-梯度对抗样本生成方法,贡献点如下:
2.2实验环境:
(1)数据集:
实验选择公共语音数据集(中等长度)上的任意100个音频样本,谷歌命令语音数据集(单词)上的任意10种类型的共100个语音命令样本以及LibriSpeech语音数据集(长句)上的任意50个音频样本,来进行方法的效果评估。
(2)智能语音识别软件:
实验采用DeepSpeech作为待测试的智能语音识别软件。
(3)实验环境与衡量指标:
实验所用系统环境为Ubuntu16.04系统,使用Python语言作为实验的编程语言,使用的深度学习平台框架为TensorFlow1.12。
实验采用语音相似度、生成对抗样本所需时间以及生成对抗样本成功率这3个指标来衡量对抗样本生成方法的效果。
(4)实验对比方法:
实验选择了3种同类型的对抗样本生成方法:遗传-梯度评估方法、布谷鸟算法、没有调参优化的初试萤火虫算法。这些对比方法都属于群智能算法,算法之间具有可比性。
(5)算法:
萤火虫算法:在发光的种群中,每一只萤火虫总是朝着比自己亮度更高的萤火虫所在位置进行移动。同时,亮度不同的萤火虫之间还存在一定的吸引度。在进行多次移动之后,其他萤火虫会聚集到亮度最高的萤火虫所在位置周围。属于群智能算法,即通过不同的方法构造出含有多个个体的种群,然后在种群中不断寻找最优个体。
梯度评估方法:是一种针对黑盒智能软件的对抗样本生成方法。梯度评估公式的主要作用就是生成梯度,将其与原始的梯度函数值做差值,对原始的梯度函数值做微小的改动,进行优化,从而生成更精准的对抗样本。
2.3方法总体框架
(1)种群初始化
对原始样本进行扩充,形成包含多个样本个体的种群。为了使个体间产生差异,还需要向种群中加入随机噪声,完成种群初始化操作。
(2)初始对抗样本生成
根据选择的适应度函数,给种群中所有个体进行评分,寻找到当前满足条件的最优个体,将其作为初始的对抗样本,并输入到语音软件中,得到样本对应的文本内容。使用编辑距离衡量对抗样本的文本内容转换到目标文本所需操作次数。
(3)目标对抗样本生成
使用萤火虫算法或梯度评估方法继续进行优化,如果生成对抗样本的文本内容与目标文本之间的编辑距离为0,意味着成功地生成了目标对抗样本。样本优化算法的选择取决于对抗样本的文本内容与目标文本之间的编辑距离:萤火虫算法用于比较大的范围内寻找当前最优个体,梯度评估方法进行局部关键扰动,不断进行迭代,生成目标对抗样本。
2.4实验结果与分析
实验采用语音相似度、生成对抗样本所需时间以及生成对抗样本成功率这3个指标来衡量对抗样本生成方法的效果。
(1)语音相似度分析
本文提出方法在3种不同类型的语音数据集上生成对抗样本的语音相似度都比较高,均在93%以上.这表明,采用提出方法,生成的目标对抗样本都和原始音频样本非常相似,具有很好的隐蔽性。
(2)生成时间分析
在3种语音数据集上,萤火虫-梯度评估方法生成对抗样本所需时间都不是最短,但是和其他3个方法所需的最短时间差距都不大,且优于布谷鸟算法与初始萤火虫算法所需时间。
(3)成功率分析
在3种语音数据集上,萤火虫-梯度评估方法生成对抗样本的成功率均优于对照组的遗传-梯度评估方法、布谷鸟算法以及初始萤火虫算法,在公共语音数据集和LibriSpeech语音数据集上,本方法的成功率优势则更为明显。例如在公共语音数据集上,相比遗传-梯度评估方法将成功率从35%提升至48%,成功率提升了13%。
(4)人工验证样本
实验寻找了30志愿者,从3 种语音数据集上分别任意挑选了10组原始样本以及成功生成的对应目标对抗样本。这些志愿者都是大学学生,此前并不了解对抗样本领域,对于本实验所做研究也并不了解。
结果表明,90%的志愿者表示听到对抗样本和原始样本的音频内容一致,只是前者存在一些细微噪声,但仍能听清原始音频的内容,并表示听不出任何有关目标文本的声音。只有10%的志愿者表示30条对抗样本里只有一两组对抗样本中的噪声比较明显,对原始的音频样本产生了干扰。
这表明采用提出方法生成的对抗样本,能够让人们察觉不出与原始样本的明显差异。然而,仍然有一小部分对抗样本的噪声较为明显,需要在之后的工作中减弱噪声。
2.5结果分析
虽然萤火虫-梯度评估对抗样本生成方法在生成对抗样本所需时间和平均语音相似度上的表现不是最好,略低于遗传梯度评估方法的表现,然而,在生成对抗样本的成功率方面,提出的方法要优于其他3种对照方法,尤其对于中等长度语句和长句而言更具优势。实验还进行了人工验证,表明生成的语音对抗样本是有效的。
2.6总结
取得效果:
在语音相似度和对抗样本生成时间略差于对比方法的情况下,目标对抗样本生成的成功率在不同类型的数据集上均优于对比方法。
有待改进:
成功率有所提高,但仍有很大提升空间;原始音频和生成的对抗音频的语音相似度相对比较低。