inaudible voice commands

海豚音攻击:听不见的声音命令

标签(空格分隔): 论文


摘要

术语
Speech recongnition(SR)
voice controled system(VCS)

  • 之前工作的攻击是可以听见的;
  • 本文实现无声攻击,通过在超声波(>20kHz)上调制声音命令,利用的是麦克风电路的非线性。被调制过的声音命令可以被声音识别系统成功解调和理解
  • 做了实验(手机语音助手和奥迪车语音助手),并且提出了相应的硬件和软件上的解决方案。

关键字

VCS SR ,MEMS麦克风 ,安全分析 ,防御


1 介绍

  • SR使得出现更多的VCS,但是SR系统的安全问题不怎么收到重视。
  • 有声攻击已经做过,但是易于察觉。本文进行无声攻击:超声波+声音硬件的漏洞。
    1. 音频设备进行低于44kHz的采样,低通滤波过滤掉超过20Hz的信号;
  1. 超声波不符合人类的音调特征,难以被SR识;
  2. 激活VCS(如sirl)需要特定的声音。
    但是本文做到了。。。。
  • 海豚音攻击可以:浏览恶意网站,监听,注入虚假信息,断网, 隐藏攻击
  • 贡献:证明了海豚音攻击可以成功;相关建议

2 背景和威胁模型

2.1 VCS

inaudible voice commands_第1张图片
vcs的组成
  • VCS由三个主要部分组成:声音获取,声音识别,命令执行。
  • 语音识别系统分为两个状态:激活和识别。这两个状态有包括用户有关和用户无关的命令(siri的激活是用户有关)
  • 本文针对的是声音获取部分。

2.2 麦克风

  • 声音获取子系统包括麦克风,放大器,低通滤波器,AD转换器


    inaudible voice commands_第2张图片

2.3 威胁模型

假设对方不能直接接触设备、拥有信号发射器、不能让受害者执行任何任务

  1. 不能接触设备 。但是对设备充分了解
  2. 不能让拥有者交互
  3. 无声。超声波
  4. 攻击装备

3 可行性分析

主要思路:(a)在超声波上调制低频声音信号;(b)在接收器的音频捕获硬件上解调。假设麦克风模块总是利用LPF,那么解调应该在LPF之前。
解调潜在的组成是麦克风和放大器。放大器是非线性的,可能产生新的频率。麦克风则不知道。
为了研究,对麦克风的非线性建模,在真的麦克风上展示非线性的影响。

3.1 非线性影响建模

  • 放大器是非线性的,可以产生在低频范围内的解调信号。本文对麦克风非线性建模:
    $$s_o(t)=As_i(t)+Bs_i^2(t)$$
  • 控制信号是$m(t)$,载波频率是$f_c$,那么
    $$s_i(t)=m(t)cos(2pif_ct)+cos(2pif_ct)$$
  • 不失一般性,$m(t)=sin(2pif_mt)$,那么输出$s_o(t)$中包含频率$f_m$及其他频率(傅里叶变换)。经过低通滤波就只含有$f_m$。
inaudible voice commands_第3张图片

3.2 非线性影响评估

本节验证非线性对真实麦克风的影响,包括ECM和MEMS两种类型。

3.2.1 实验设置

inaudible voice commands_第4张图片
single tone

3.2.2 结果

  • 单个音调 :见上上图。
  • 声音(多个音调):计算3个截取的“Hey”的MFCC,MFCC是被广泛使用的声音特征。(a)(text-to-speech)TTS引擎产生的原声;(b)iphone6播放TTS,三星S6记录下来的声音。(c)TTS被调制,由超声波发声器播放,三星S6记录下来的声音。


    inaudible voice commands_第5张图片

    计算歪曲度MCD分别是3.1和7.6,应该会被声音识别系统接受。


4 攻击设计

inaudible voice commands_第6张图片

4.1 声音命令的产生

4.1.1激活命令的产生

  • siri激活的两个条件:1. “Hey siri” 2. 拥有者的音调
  • 分两种情况:(a)不能获取拥有者的声音;(b)可以获得拥有者声音的一些记录
  1. 基于TTS的暴力破解:利用音调相近进行破解


    inaudible voice commands_第7张图片
  2. 连接合成:利用英语大概有44个单音


    inaudible voice commands_第8张图片

4.1.2通用控制命令的产生

4.1.3评估


4.2 声音命令调制

inaudible voice commands_第9张图片

4.2.1 调幅参数

  1. 深度:m=M/A,A是载波幅度,M是调制幅度(纯增加的)。与硬件有关
  2. 载波频率($f_c$):受超声波频率范围、基带信号带宽(w)、低通滤波器的截至频率(>20kHz)、麦克风的频率响应、攻击发生器的频率响应影响。有$$f_c-w>20kHz$$应该选择一个对于发生器和麦克风来说都是最大增益的频率。


    inaudible voice commands_第10张图片
  3. 声音选择:对应于基带信号带宽(w)

4.3 声音命令发射台

4.3.1 有信号产生器的强力发射台

4.3.2 有智能手机的轻便发射台:三星S6Edge最大采样频率是144kHz,发生器会减弱大于20kHz的信号,所以采用超声波变送器

inaudible voice commands_第11张图片

5 通过VCS的可行性实验

(a)海豚音攻击可以对不同的操作系统和硬件平台下的不同语音识别系统起到作用吗?(b)不同的软件和硬件会如何影响攻击性能?(c)什么是制作成功攻击的关键因素?

5.1 系统选择

inaudible voice commands_第12张图片

5.2 实验设置

  • 装备:两种声音命令发射台
  • 设置:
  • 声音命令:
  • 声压水平(SPL):
  • 攻击:
  • 调制参数:载波频率和调幅深度

5.3 可行性结果

inaudible voice commands_第13张图片
  • 硬件依赖:麦克风、放大器、滤波器不同,导致在SR中产生的数字信号不同。影响结果
  • SR系统依赖:
  • 识别对比激活:距离效果;在普通命令前加上"Hey sirl"更有可能识别。
  • 命令问题:越短越常用,效果越好。“今天天气”比“呼叫12345678”表现更好
  • 载波频率:


    inaudible voice commands_第14张图片
  • 调制深度:


    inaudible voice commands_第15张图片
  • 攻击距离:
  • 努力和挑战

5.4 总结

  1. 我们证实识别和唤醒攻击。在16个不同设备和7个语音识别系统上。大多数都成功了。
  2. 记录攻击的性能表现。
  3. 我们记录、测试和讨论关于攻击性能的参数。

6 影响定量

6.1 语言的影响

实验设置:10次,20cm,55dB的背景噪声,25kHz载波频率,100%的调幅深度。(是TTS暴力还是合成,还是同一个TTS呢?)


inaudible voice commands_第16张图片
image.png

6.2 背景噪声的影响

inaudible voice commands_第17张图片
image.png

6.3 声压水平的影响

inaudible voice commands_第18张图片
image.png

6.4 攻击距离的影响

inaudible voice commands_第19张图片
image.png

6.5 可移动设备攻击的评估

inaudible voice commands_第20张图片
image.png

还有一些距离实验。


7 防御

7.1 硬件防御

  1. 麦克风增强:抑制超声波信号。
  2. 无声命令取消:在低通滤波LPF之前,添加模块检测调幅信号。

7.2 软件防御

inaudible voice commands_第21张图片
image.png

原始信号、录音信号、恢复(解调)信号在高频(500-1000Hz)处不同。通过机器学习分类器检测。


8 相关工作


9 总结

本文,我们提出了海豚音攻击,一种对于SR的“无声”攻击。海豚音攻击利用调幅技术去调制有声命令,超声波作为载波。这样人类就不能察觉命令的存在。利用海豚音攻击,坏人可以攻击主流的SR系统,包括siri,Google Now等。为了避免海豚音攻击的滥用,我们提出了防御方案,包括硬件和软件两个方面。

你可能感兴趣的:(inaudible voice commands)