【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》

《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》论文学习

文章目录

  • 《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》论文学习
    •   摘要
    •   1 介绍
    •   2 背景
      •     2.1 基于语音的用户标识
      •     2.2 语音合成系统
      •     2.3 基于语音的欺骗攻击
      •     2.4 合成语音的防御
    •   3 研究方法
      •     3.1 威胁模型和假设
      •     3.2 实验概述
      •     3.3 基于DNN的合成系统研究
      •     3.4 说话人识别系统(SR)的研究
      •     3.5 说话人/语音数据集
      •     3.6 行为准则
    •   4 合成语音 VS 机器
      •     4.1 基线:传统合成攻击现代SR系统
      •     4.2 Resemblyzer(开源SR)
      •     4.3 Azure (开放的API, 真实世界的SR)
      •     4.4 微信和Amazon Alexa(封闭的API,真实世界的SR)
      •     4.5 关键要点
    •   5 合成语音 VS 人类
      •     5.1 研究方法及主要研究结果
      •     5.2 用户研究A:用户能分辨合成语音和真实语音吗?
      •     5.3 用户研究B:用户如何在可信设置中与合成语音交互?
      •     5.4 主要词语
    •   6 评估现有防御
      •     6.1 现有防御:检测和预防
      •     6.2 利用Void检测合成语音
      •     6.3 利用Attack-VC防止语音合成
      •     6.4 结合Void和Attack-VC
      •     6.5 关键要点
    •   7 结论

  摘要

       深度学习的进步带来了一波新的语音合成工具,能够产生听起来像是目标说话人所说的音频。如果成功,这些工具落入坏人手中将会对人类和软件系统(也就是机器)发动一系列强大的攻击。本文记录了基于深度学习的语音合成攻击对人类和机器(如说话人识别和语音信号系统)的影响的综合实验研究的成果和发现。我们发现,人类和机器都可以被合成语音骗过,而现有的针对合成语音的防御措施是不够的。这些发现突出表明,有必要提高人们的意识,并开发新的保护措施,防止人类和机器使用合成语音。
       
       关键词:神经网络,语音合成,生物安全
       

  1 介绍

       我们的声音所传达的信息比我们所说的话语要多得多。这是我们身份的基本组成部分,通常被描述为我们的听觉面孔(《Understanding voice perception》)。听我们的声音就足以让听者对我们做出推断,比如性别外貌(《The role of pitch and timbre in voice gender categorization》),大小或力量(《Adaptations in humans for assessing physical strength from the voice》),大概年龄(《You are only as old as you sound: auditory aftereffects in vocal age perception》),甚至社会经济地位(《Evidence for the reproduction of social class in brief speech》)。
       
       但也许人类的声音不再像我们愿意相信的那样独特。深度学习的最新进展已经导致了广泛的工具,以目标说话人的声音生成合成语音,或作为文本到语音(TTS)工具,将任意文本转换为口语单词(《Neural voice cloning with a few samples》,《Hierarchical generative modeling for controllable speech synthesis》,《Neural text-to-speech adaptation from low quality public recordings》,《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《DeepVoice 3: Scaling text-to-speech with convolutional sequence learning》,《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》,《Voiceloop: Voice fitting and synthesis via a phonological loop》,《Tacotron: Towards end-to-end speech synthesis》),或者作为语音转换工具,将现有的语音样本重塑成目标人所说的相同内容(《Stargan-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks》,《Autovc: Zero-shot voice style transfer with only autoencoder loss》,《ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network》,《Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion》,《Vqvc+: One-shot voice conversion by vector quantization and u-net architecture》)。除了谷歌Duplex这样的专有系统外,还有许多其他系统可以作为开源软件或商业WEB服务(《Lyrebird AI》,《Resemble.AI》)。
       
       鉴于我们的声音和我们的身份之间的紧密联系,一个成功地模仿或模仿我们的声音的工具可以在各种情况下造成严重的破坏。首先,它可以绕过银行和信用卡公司(如摩根大通和汇丰银行(《Chase VoiceID》,《HSBC VoiceID》))的自动客户服务电话中已经部署的基于语音的认证系统(也称为自动说话人验证系统),以及微信(《Announcing WeChat VoicePrint》)等移动消息应用程序的用户登录服务。它还将击败物联网设备(如数字家庭助手(如Amazon AlexaPersonalize Your Alexa Experience with Voice Pro- files》,Google Home)(《What Are Alexa Voice Profiles?》))中的基于用户的访问控制。最后,这些工具可以直接攻击终端用户,通过增加传统的网络钓鱼诈骗与熟悉的人的声音。最近的一个骗局显然就是这样,攻击者模仿公司CEO的声音命令下属进行非法转账(《Fraudsters Used AI to Mimic CEO s Voice in Unusual Cybercrime Case》)。
       
       这些语音合成攻击,特别是那些由于深度学习的进步而导致的攻击,对计算机系统和人类都构成了严重的威胁。然而,到目前为止,还没有明确的成果来衡量这种威胁在深度学习系统的背景下的严重性。之前的工作已经确定了针对前几代合成工具和说话人识别系统的语音合成攻击的可行性(《Revisiting the security of speaker verification systems against imposture using synthetic speech》,《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》,《On the security of HMM-based speaker verification systems against imposture using synthetic speech》,《All your voices are belong to us: Stealing voices to fool humans and machines》)。类似地,先前评估人类对语音合成攻击脆弱性的工作是在有限的环境中评估现已过时的系统(《All your voices are belong to us: Stealing voices to fool humans and machines》,《The Crux of Voice (In) Security: A Brain Study of Speaker Legitimacy Detection》)。
       
       我们认为,现在迫切需要衡量和了解基于深度学习的语音合成攻击如何影响两个不同的实体:机器(如自动化软件系统)和人类。这种攻击能否克服目前部署在安全关键设置下的说话人识别系统?或者他们会危及移动系统,比如移动应用程序上的语音签到吗?针对人类目标,可以合成模仿特定人类声音的语音样本,成功地使我们相信它们的真实性。
       
       在本文中,我们描述了深度学习语音合成攻击对机器和人类造成的威胁的深入分析的结果。我们首先评估现代说话人验证系统(包括商业系统Microsoft Azure、微信和Alexa)的易感性,并评估各种影响攻击成功的因素。为了评估人类对合成语音的脆弱性,我们在调查设置和可信上下文中执行多个用户研究。最后,我们评估了现有防御对语音合成攻击的可行性。我们所有的实验都使用了公开可用的深度学习语音合成系统,我们的结果突出了对基于深度学习的语音合成攻击的针对人类和机器的新防御需求。
       
       关键的发现 我们的研究产生了几个关键发现:
       (1)通过对90个不同的说话人进行的一系列综合实验,我们评估并表明,基于DNN的语音合成工具在误导现代说话人识别系统方面非常有效(成功率为50%至100%)。
       (2)我们的实验发现,经过几次尝试,合成语音可以模拟现实世界中60%的扬声器识别系统:微软Azure、微信和亚马逊Alexa
       (3)一项针对200名参与者的用户调查显示,对于不熟悉的声音,人类能够区分合成语音和真实说话者的准确率为50%,而对于熟悉的声音,准确率接近80%。
       (4)一项针对14名参与者的基于访谈的欺骗研究表明,在一个更可信的环境中,插入合成语音成功地欺骗了大多数参与者。
       (5)对两种最先进的防御系统的详细评估表明,它们在阻止语音合成或可靠地检测语音合成方面都达不到目标,这突出了对新的防御系统的需求。
       
       需要注意的是,从本质上讲,语音合成是指产生人类和机器听起来像目标说话者的可听到的语音。这与说话人识别系统中干扰语音导致错误分类的对抗攻击有着根本的不同(《Who is real bob? adversarial attacks on speaker recognition systems》,《Fooling endto-end speaker verification with adversarial examples》,《Practical adversarial attacks against speaker recognition systems》)。这种攻击不会影响人类听众,可以通过开发针对对抗性样本的新防御来解决。
       

  2 背景

       在本节中,我们首先描述说话人识别技术和语音合成系统的当前趋势,然后是基于语音的欺骗攻击。最后,简要总结了针对合成语音提出的防御策略。
       

    2.1 基于语音的用户标识

       人类如何通过声音识别说话者
       每个人的声道的独特特征造就了他们独特的声音。人类利用这些声音特征通过声音(《Vocal caricatures reveal signatures of speaker identity》)来识别人。尽管人类说话人的识别并不完善,但它具有很高的准确性,并启发了出于安全目的构建说话人识别系统(《Talker change detection: A comparison of human and machine performance》)。
       
       机器自动用户验证
       最近,说话人识别已经成为一种流行的替代其他生物认证方法(《Automatic speaker verification: A review》)。说话人识别系统捕捉说话人声音的特征,并与登记的说话人档案进行比较。如果有匹配,识别系统将授予说话者访问权限。早期说话人识别系统(20世纪70年代至2010年代)使用参数化方法,如高斯混合模型,而最近的系统(2014年以来)使用深度学习模型,这减少了开销并提高了准确率(《Cepstral analysis technique for automatic speaker verifi- cation》,《Speaker verification using adapted Gaussian mixture models》,《Deep neural network-based speaker embeddings for end-to-end speaker verification》,《Deep neural networks for small footprint textdependent speaker verification》)。
       
       从银行客户身份识别到手机应用登录等许多设置中都使用了说话人识别(《Announcing WeChat VoicePrint》,《Chase VoiceID》,《HSBC VoiceID》)。最近,像Alexa和谷歌Assistant这样的虚拟助手已经开始使用说话人识别来定制系统行为(《Link Your Voice to your Google Assistant device》,《What Are Alexa Voice Profiles?》)。说话人识别系统要么是文本依赖的,要么是文本独立的(《A tutorial on text-independent speaker verification》,《End-to-end text-dependent speaker verification》)。依赖文本的系统在注册和登录时使用相同的、特定于说话者的身份验证短语。文本独立的系统是内容不可知的。
       

    2.2 语音合成系统

       合成语音是由非人类来源(如计算机)产生的,模仿人的声音。制造电子合成语音的努力可以追溯到20世纪30年代,当时霍默·达德利(Homer Dudley)发明了第一个声码器(《Computer Synthesized Speech Technologies: Tools for Aiding Impairment》)。从那时起,像Festvox(《Festvox: Tools for creation and analyses of large speech corpora》)这样的系统使用高斯混合模型(GMM)来提高语音合成的质量而不是速度。最近的深度学习革命促进了该领域的发展。
       
       基于DNN的语音合成
       许多基于深度神经网络(DNN)的语音合成系统已经被提出(《Neural voice cloning with a few samples》,《Hierarchical generative modeling for controllable speech synthesis》,《Neural text-to-speech adaptation from low quality public recordings》,《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《Stargan-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks》,《DeepVoice 3: Scaling text-to-speech with convolutional sequence learning》,《Unsupervised speech decomposition via triple information bottleneck》,《Autovc: Zero-shot voice style transfer with only autoencoder loss》,《ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network》,《Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion》,《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》,《Voiceloop: Voice fitting and synthesis via a phonological loop》,《Tacotron: Towards end-to-end speech synthesis》,《Vqvc+: One-shot voice conversion by vector quantization and u-net architecture》)。它们可以分为两类:文本到语音(TTS)和语音转换(VC)。
       TTS系统将任意文本转换为目标说话人声音中的单词(《Neural voice cloning with a few samples》,《Hierarchical generative modeling for controllable speech synthesis》,《Neural text-to-speech adaptation from low quality public recordings》,《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《DeepVoice 3: Scaling text-to-speech with convolutional sequence learning》,《Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions》,《Voiceloop: Voice fitting and synthesis via a phonological loop》,《Tacotron: Towards end-to-end speech synthesis》)。相比之下,VC系统采用攻击者和目标两个语音样本,并输出一个语音样本,其中攻击者的内容以目标的语音表达(《Stargan-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks》,《Unsupervised speech decomposition via triple information bottleneck》,《Autovc: Zero-shot voice style transfer with only autoencoder loss》,《ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network》,《Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion》,《Vqvc+: One-shot voice conversion by vector quantization and u-net architecture》)。TTSVC都产生相同的输出:目标声音的合成版本,说出攻击者选择的单词。
       
       有效性和可用性
       许多基于DNN的语音合成系统报告了令人印象深刻的语音真实感指标,表明在经典系统上有显著的改进。DNN合成性能的支持证据来自真实世界的轶事。基于DNN的合成语音在高利润攻击中至少使用了一种(《Fraudsters Used AI to Mimic CEO s Voice in Unusual Cybercrime Case》)。谷歌的新日程安排助理声音是如此逼真,以至于谷歌被指示在通话时宣布它的使用(《Google s AI sounds like a human on the phone should we be worried》)。
       一些DNN合成系统(及其训练数据集)仍然属于公司内部,但许多系统可以在Github上找到(《Mozilla TTS》,《TensorflowTTS》,《Real Time Voice Cloning》,《AutoVC Github Implementation》)。对于不太懂技术的人,在线服务将收费进行语音克隆(《Lyrebird AI》,《Resemble.AI》)。这种语言合成功效和可用性的结合既令人兴奋又令人担忧。
       
       语音合成的误用
       语音合成技术有许多积极的用途,如给哑人发声,帮助口语翻译,增加人类对辅助机器人的信任(《Speech synthesis from neural decoding of spoken sentences》,《Adapting transformer to end-to-end spoken language translation》,《Speech synthesis using EEG》,《Age and gender factors in user acceptance of healthcare robots》,《The effects of synthesized voice accents on user perceptions of robots》)。然而,我们的工作集中在这些用途的阴暗面,产生恶意的合成语音,以欺骗人类和机器。
       

    2.3 基于语音的欺骗攻击

       在这项工作中,我们特别关注对基于语音的用户身份的欺骗攻击,攻击者模仿目标的声音来窃取他们的身份。另一项平行的工作是探索对抗式攻击,在这种攻击中,对手向语音中添加听不见的干扰,以欺骗说话者识别系统(《Who is real bob? adversarial attacks on speaker recognition systems》,《Fooling end-to-end speaker verification with adversarial examples》,《Practical adversarial attacks against speaker recognition systems》)。对抗攻击虽然强大,但与欺骗攻击不同,因为它们不会模仿目标,因此不会对人类构成威胁。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第1张图片
       图1给出了欺骗攻击的一个高级概述。对手可以使用几种技术,表1对这些技术进行了分类。之前的工作已经发现,所有的欺骗技术重放、模仿和合成都可以可靠地欺骗基于机器的语音识别系统,但只有少数工作调查了对人类的威胁。在这里,我们总结了之前研究这些欺骗攻击的工作。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第2张图片
       
       针对机器的欺骗攻击
       我们首先总结了之前测量机器易受欺骗攻击的工作。
       (1)录音与重播:在重放攻击中,攻击者记录下受害者的准确讲话并重放以欺骗目标说话者识别系统(《Re-assessing the threat of replay spoofing attacks against automatic speaker verification》,《An assessment of automatic speaker verification vulnerabilities to replay spoofing attacks》)。ASVspoof挑战(《The ASVspoof 2017 challenge: Assessing the limits of replay spoofing attack detection》,《ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge》)对这种攻击进行了广泛的调查。重放攻击有很高的开销,因为攻击者必须获得受害者的特定录音。此外,这种攻击受到受害者可用录音内容的限制。
       
       (2)人类模仿:人类声音演员可以非常成功地模仿他人的声音,而精心设计的模仿欺骗攻击可靠地愚弄了说话人识别系统(《Detection and Evaluation of human and machine generated speech in spoofing attacks on automatic speaker verification systems》,《Acoustical and perceptual study of voice disguise by age modification in speaker verification》,《Vulnerability of speaker verification to voice mimicking》,《Wiretapping via mimicry: Short voice imitation man-in-the-middle attacks on crypto phones》,《Voice mimicry attacks assisted by automatic speaker verification》)。这些攻击甚至击败了汇丰银行基于发言者识别的安全系统(《BBC Fools HSBC Voice Recognition System》)。虽然这些攻击很有效,但由于依赖人类的天赋,它们的开销很大,通用性有限。
       
       (3)机器合成(传统):之前的工作大多使用基于GMM的语音合成系统(如Festvox(《Festvox: Tools for creation and analyses of large speech corpora》))来攻击公众、基于GMM的说话者识别系统(《Revisiting the security of speaker verification systems against imposture using synthetic speech》,《Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech》,《On the security of HMM-based speaker verification systems against imposture using synthetic speech》,《All your voices are belong to us: Stealing voices to fool humans and machines》)。最近的一项研究着眼于现实世界,将Festvox生成的一小组合成语音与5个支持语音认证的移动应用程序进行了测试,结果显示96%以上的成功率(《Quantifying the Breakability of Voice Assistants》)。然而,经典合成攻击对现代说话人识别系统的有效性仍然不清楚。
       
       (4)机器合成(基于DNN):据我们所知,只有一项研究(《Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?》)检验了基于DNN的合成攻击的性能。它通过运行10个合成样本,6个说话人(由(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》)生成)与3个本地训练的说话人识别原型进行初步测试。它得出了一个模糊的结论:当在合成语音上运行时,这些说话人识别原型产生的错误比干净(非合成)语音更多。
       
       针对人类的欺骗攻击
       现有的工作评估人类对欺骗的易感性只评估模拟和传统的合成攻击。单模仿攻击论文发现,人们可以被演员假装成比他们实际年龄更老或更年轻的人愚弄。第一张经典的合成攻击测量论文(《All your voices are belong to us: Stealing voices to fool humans and machines》)使用了传统的调查格式,发现用户正确区分真实和Festvox合成的声音(模仿真实说话人)的时间约为50%,不管他们是否熟悉真实说话人。该(《The Crux of Voice (In) Security: A Brain Study of Speaker Legitimacy Detection》)的后续研究使用相同的数据和调查格式,但包括fNIRS大脑扫描技术来测量参与者的神经活动。他们发现,在播放真实说话人或合成说话人的语音时,神经活动没有统计学上的显著差异。
       

    2.4 合成语音的防御

       人们提出了许多防御方法来防御语音识别系统对合成语音攻击的攻击。虽然大多数研究集中在检测合成语音或说话人(《Void: A fast and light voice liveness detection system》,《Detecting AI-Synthesized Speech Using Bispectral Analysis》,《You can hear but you cannot steal: Defending against voice impersonation attacks on smartphones》,《An audio CAPTCHA to distinguish humans from computers》,《Voicefox: Leveraging Inbuilt Transcription to Enhance the Security of Machine-Human Speaker Verification against Voice Synthesis Attacks》,《Voicepop: A pop noise based anti-spoofing system for voice authentication on smartphones》,《DeepSonar: Towards Effective and Robust Detection of AISynthesized Fake Voices》,《The Catcher in the Field: A Fieldprint based Spoofing Detection for Text-Independent Speaker Verification》,《Hearing your voice is not enough: An articulatory gesture based liveness detection for voice authentication》),但最近的工作指向了一个新的防御方向:防止未经授权的语音合成(《Defending Your Voice: Adversarial Attack on Voice Conversion》)。我们在第六章讨论和评估代表性防御技术。
       

  3 研究方法

       目前还没有全面的研究,研究基于DNN的语音合成对基于软件的说话人识别系统和人类用户构成的威胁。我们的工作针对这一关键需求,并概述了减轻由此产生的威胁所需的未来工作。在这里,我们描述了威胁模型,以及我们分析所使用的方法、工具和数据集。
       

    3.1 威胁模型和假设

       在基于DNN的语音合成攻击中,攻击者 A \mathfrak{A} A的目标是通过模仿目标 T \mathfrak{T} T的声音窃取其身份。为此, A \mathfrak{A} A首先从 T \mathfrak{T} T中收集一组语音样本 S T \mathfrak{S_T} ST,要么在公共环境中秘密记录他们的语音,要么从公共视频/音频剪辑中提取音频。当 A \mathfrak{A} A认识 T \mathfrak{T} T的时候,这些语音片段也可以从私人媒体获得。接下来, A \mathfrak{A} A S T \mathfrak{S_T} ST输入语音合成系统,该系统产生合成或假的语音样本 S A \mathfrak{S_A} SA。在这种情况下, S A \mathfrak{S_A} SA的发音应该像 T \mathfrak{T} T,但包含由 A \mathfrak{A} A选择的任意语音内容。
       
       我们对对手 A \mathfrak{A} A做如下假设:
       (1) A \mathfrak{A} A只需要从 T \mathfrak{T} T中提取少量的语音样本,即总共不超过5分钟的语音;
       (2)直接使用公开的基于DNN的语音合成系统来生成合成语音 S A \mathfrak{S_A} SA
       (3) A \mathfrak{A} A试图生成虚假的语音样本 G A \mathfrak{G_A} GA,使人类或机器相信他们在与 T \mathfrak{T} T互动。
       

    3.2 实验概述

       我们进行了一项测量研究,以探索当今公开可用的、基于DNN的语音合成系统对机器和人类构成的现实世界的威胁。这些包括:
       (1)检验合成语音是否能欺骗说话人识别(SR)系统,即机器的实证实验(第四章)
       (2)用户研究探索在多种交互场景下人类对合成语音的敏感性(第五章)
       (3)经验实验评估现有防御基于DNN的合成攻击的有效性(第六章)
       接下来,我们描述了DNN合成和SR系统以及我们实验中使用的说话人数据集。
       

    3.3 基于DNN的合成系统研究

       我们考虑“零样本”系统(即那些需要<5分钟的目标数据来进行合成),并专注于同行评审的、已发表的、带有公共代码实现和预先训练过的模型的论文。我们测试了大量的合成系统,包括(《Neural voice cloning with a few samples》,《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《Stargan-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks》,《Autovc: Zero-shot voice style transfer with only autoencoder loss》,《Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion》,《Voiceloop: Voice fitting and synthesis via a phonological loop》),但发现许多系统不能很好地概括陌生的说话人(即那些不在训练数据集中的人)。泛化对于像我们的威胁模型所定义的低资源攻击者是至关重要的,因为它允许目标选择的灵活性。最后,我们选择了两个在陌生说话人上表现最好的系统:SV2TTS(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》),一个基于谷歌的TacotronTTS系统,和AutoVC(《Autovc: Zero-shot voice style transfer with only autoencoder loss》),一个基于自动编码器的语音转换系统。
       
       SV2TTS
       这是一个零样本,文本独立的语音转换系统,只需要5秒的目标语音(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》)。它结合了谷歌早期的三个工作:LSTM说话人编码器(《Generalized End-to-End Loss for Speaker Verification》),DNN语音合成网络Tacotron2WaveNet声码器。我们没有自己训练模型,而是使用一个众所周知的公共实现(《Real-Time Voice Cloning》)。在这种情况下,编码器在VoxCeleb1/2(《Voxceleb: Large-scale speaker verificationin the wild》)和LibriSpeech训练(《Librispeech: an asr corpus based on public domain audio books》)数据集上进行预训练,合成网络在LibriSpeech训练上进行预训练,均遵循原始论文的设置(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》)。
       
       AutoVC
       第二个系统是一个零样本风格的传输自动编码器网络,它执行与文本无关的语音转换(《Autovc: Zero-shot voice style transfer with only autoencoder loss》。它的编码器瓶颈将说话人的特征从语音内容中分离出来,便于语音合成。与SV2TTS一样,它的说话人编码器和语音声码器分别依赖于(《Generalized End-to-End Loss for Speaker Verification》)和WaveNet。我们还使用了(《AutoVC Github Implementation》)提供的公开实现,其中说话人编码器在VoxCeleb1LibriSpeech训练上进行预训练,自动编码器在VCTK上进行预训练,同样遵循(《Autovc: Zero-shot voice style transfer with only autoencoder loss》)的原始设置。
       

    3.4 说话人识别系统(SR)的研究

       为了探索真实世界中语音合成攻击对机器的威胁,我们选择了四个最先进的SR系统。这些包括公开可用的和专有的系统。
       
       Resemblyzer
       (《Resemblyzer》)是一种开源的DNN说话人编码器,在最近的文献中被广泛使用。使用广义端到端损失在VoxCeleb1/2LibriSpeech训练(《Generalized End-to-End Loss for Speaker Verification》)。每个说话人用大约30秒的说话时间将其登记到系统数据库中,创建一个代表他们身份的嵌入。为了识别传入的说话人,系统计算嵌入的内容,并使用余弦相似度将其与数据库中的嵌入内容进行比较。
       
       Microsoft Azure
       Microsoft Azure的云平台包括一个独立于文本的说话人识别API(《Microsoft Azure Speaker Recogition》)。使用20秒的语音数据注册发言者,并通过API进行发言者验证查询。该系统已通过多个国际机构的认证,如支付卡行业(PCI)、HIPAA和国际标准组织(ISO)。
       
       WeChat
       微信是一个流行的移动消息和支付平台,它提供依赖文本的“声纹”登录来进行认证。用户通过重复应用程序提供的8位数字来创建自己的声纹。后续每次登录声纹都会使用相同的数字。在应用程序强制口令认证(《WeChat VoicePrint Documentation》)之前,用户每天最多可以尝试6次语音登录。
       
       Amazon Alexa
       Alexa是亚马逊智能音箱中的虚拟助手。Alexa使用语音配置文件定制用户交互,并控制访问敏感应用程序,如电子邮件和日历(《What Are Alexa Voice Profiles?》)。语音档案控制Alexa第三方应用对敏感信息的访问,如支付(优步)和电话账户管理(沃达丰)(《Personalize Your Alexa Experience with Voice Pro-files》)。
       

    3.5 说话人/语音数据集

       我们使用四个不同的说话人数据集来定义目标说话人 T \mathfrak{T} T和他们的语音样本 S T \mathfrak{S_T} ST。前三个是常用的说话人识别数据集,最后一个是为我们的实验定制的数据集。
       (1)VCTK(《CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit》)包含了110个不同口音的英语使用者的短口语短语。短语是从报纸,彩虹段落(《Voice and articulation drillbook》),和一个特定的数据段落;
       (2)LibriSpeech(《Librispeech: an asr corpus based on public domain audio books》)来源于开源的LibriVox有声书项目。我们使用test-clean子集,其中包含40个说英语的人的口语短语;
       (3)SpeechAccent(《Speech Accent Archive》)包含了来自2140位说话者的一组相同的英语口语短语。讲话者来自177个不同的国家,代表214种母语;
       (4)我们的Custom数据集包含了14个讲英语的人所说的彩虹段落中的短语(详见第四章第四节)。这个数据集允许我们在微信和Alexa上合成真实的语音测试。
       

    3.6 行为准则

       我们所有的用户研究协议都得到了当地IRB委员会的批准,并经过精心设计,以保护参与者的隐私和健康。我们只保留了采访的录音,这些录音是匿名的,并存储在安全的服务器上。考虑到我们的目标是让人们注意到这个攻击向量的重要性,我们也主动联系了微软Azure、微信和亚马逊,以披露我们的发现。
       

  4 合成语音 VS 机器

       我们首先要问,基于机器的SR系统对合成语音攻击的脆弱性有多大?虽然之前的工作已经使用经典(非DNN)合成系统探索了这个问题,但DNN合成攻击现实世界SR系统的有效性仍然未知。在本节中,我们通过评估四个现代SR系统对基于DNN的合成攻击的鲁棒性来回答这个问题。
       
       具体来说,我们的研究包括以下实验:
       (1)作为基准,4.1重新创建了以前的经典合成攻击,并发现它们在较新的SR系统中失败;
       (2)4.2攻击被广泛使用的SR模型(Remblyzer),表明基于DNN的合成攻击可靠地欺骗了这类系统;
       (3)4.34.4攻击了三个现实世界的SR部署(Azure、微信和Amazon Alexa),表明这三个部署都容易受到基于DNN的合成攻击。
       
       我们使用攻击成功率(AS)来衡量攻击性能,AS表示被识别为目标说话者的合成样本的平均百分比。我们设计实验,不仅评估针对不同SR系统的攻击成功率,还探索目标的语音样本和个人属性(例如,性别/口音)是否会影响攻击结果。
       

    4.1 基线:传统合成攻击现代SR系统

       作为参考,我们评估了以前的经典(非DNN)合成攻击对当今SR系统的有效性。2015年的一篇论文(《All your voices are belong to us: Stealing voices to fool humans and machines》)证明了用Festvox(《Festvox: Tools for creation and analyses of large speech corpora》)创建的合成语音用>98%的成功率。我们重新创建了这种攻击,并发现它在最近的SR系统上失败了(表2)。附录中是我们实验的详细描述。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第3张图片
       

    4.2 Resemblyzer(开源SR)

       接下来,我们测试了基于DNN的语音合成攻击。我们使用(《Resemblyzer》)提供的官方实现。
       
       实验设置
       研究了DNN合成攻击的攻击成功率及其与目标语音样本和个人属性的关系。因此,我们深入分析了(1)内容特异性因素,即 S T \mathfrak{S_T} ST的大小和质量以及 S T \mathfrak{S_T} ST与合成语音 S A \mathfrak{S_A} SA之间的语音相似性,以及(2)身份特异性因素,即T的性别和口音。这些都是合理的攻击者会考虑的因素。我们在表3中列出了相应的实验。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第4张图片
       总的来说,我们的实验考虑了从三个说话人数据集中随机选择的90个目标说话人(从VCTK中随机选择20个,从LibriSpeech test-clean中随机选择20个,从SpeechAccent中随机选择50个)。对于每个目标 T \mathfrak{T} T,我们使用它们的语音样本集 S T \mathfrak{S_T} ST作为SV2TTSAutoVC的输入来产生 T \mathfrak{T} T的假声音,这些假声音包含任意选择的模仿正常对话的语音内容(如附录中的表10所示)。由于AutoVC也需要源录音,因此我们选择目标说话人性别相同的源录音(《Autovc: Zero-shot voice style transfer with only autoencoder loss》)。在每个测试中,我们为每个目标说话人合成10个口语短语。
       
       我们注意到,Resblyzer需要一个阈值来检测两个语音嵌入是否来自同一个说话人。我们首先利用目标说话人的真实语音样本将他们纳入到相似度中,然后计算他们的嵌入情况,并使用余弦相似度作为距离度量,选择最小化这些说话人的相似度(EER)的阈值。在进行综合攻击时,如果攻击与编入的嵌入的相似度超过阈值,则认为攻击成功。对于每一次攻击,我们重复登记过程10次(使用不同的语音样本),并报告平均攻击成功率和标准偏差。
       
       结论
       我们总共测试了13000个合成语音实例,目标是90个说话人。实验结果表明,基于SV2TTS的攻击方法对Rebesblyzer具有较高的攻击效率,而AutoVC的攻击效果较差。语音的大小和质量、说话人的性别和口音对攻击成功率有影响,但语音相似度的影响最小。接下来,我们将更详细地报告这些结果。
       
       (1)攻击成功率默认设置
       我们从理想的案例开始,攻击者以带有美国或英国口音的英语母语者为目标,每个目标都有大量高质量的语音样本。为此,我们考虑了来自VCTKLibriSpeech的目标说话者,并将 S T \mathfrak{S_T} ST配置为每个目标包含N = 10个话语。因此, S T \mathfrak{S_T} ST包含30-120秒的干净音频,远远超过了运行零样本合成所需的时间(《Transfer learning from speaker verification to multispeaker text-to-speech synthesis》,《Autovc: Zero-shot voice style transfer with only autoencoder loss》)(大约20秒)。我们在此将푁称为目标语音样本的数量。
       如图2a所示,SV2TTS合成的假语音成功地骗过了Resblyzer,而AutoVC则失败了。我们认为SV2TTS(尤其是在LibriSpeech上)的成功很可能是因为Restymyer使用SV2TTS扬声器编码器使用的相同的损失函数进行训练(《Generalized End-to-End Loss for Speaker Verification》)。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第5张图片
       (2) S T \mathfrak{S_T} ST尺寸的影响
       我们重复上述实验,但改变目标语音样本的大小,即N=1、5、10、20、30、40个语音样本。如图2b所示,SV2TTS的攻击成功率随着N的增加而增加,但在N达到10之前趋于平稳。对于AutoVC,在改变N时攻击仍然无效。
       
       (3) S T \mathfrak{S_T} ST质量的影响
       这个问题与现实世界的攻击设置有关,因为攻击者可能并不总是获得目标的高质量音频记录。为了模拟低质量的数据,我们在原始纯净音频中添加了四种不同水平的零均值高斯噪声。我们将信噪比从4dB(比说话人声音小的噪音)变化到15dB(比说话人声音大的噪音)。”研究发现,噪声目标语音样本大大降低了合成攻击性能。对于SV2TTSAutoVC,攻击成功率在所有四个噪声级都降低到0%。
       
       (4) S T \mathfrak{S_T} ST S A \mathfrak{S_A} SA语音相似性的影响
       如果内容相似度影响攻击成功率,那么这个因素在现实世界中也有很强的影响,攻击者可能在很大程度上受到他们获得 S T \mathfrak{S_T} ST的限制。由于SV2TTS可以从任意文本生成合成语音,所以我们用它来研究这个问题。
       有趣的是,我们发现 S T \mathfrak{S_T} ST S A \mathfrak{S_A} SA的音素相似性没有任何明显的影响,当我们将标准化音素相似性从0改变到1时,攻击成功率保持稳定。
       
       (5)目标性别的影响
       我们现在考虑的是影响攻击结果的个人属性。第一个是说话人的性别,例如,如果合成或SR模型缺乏足够的性别多样性,这可能会发挥作用。为了研究这个因素,我们将SV2TTS实验的结果按性别分开。我们发现,合成的女性说话人比男性说话人有更高的平均AS(图2c)。当我们在Resblyzer上测试这些目标说话者的清晰(非合成)语音时,男性和女性说话者的SR准确性都是100%。
       
       (6)目标口音的影响
       大多数公共演讲数据集都是由带有美国或英国口音的英语母语人士(如VCTK, LibriSpeech, VoxCeleb 1/2)组成。在这些数据集上训练的语音合成系统可能无法再现具有不同口音的说话人的独特韵律。为了测试这一点,我们从SpeechAccent数据集中选择了50名目标说话者,包括以英语为母语的男性/女性和来自21种最常用语言的男性/女性。
       在比较母语和非母语者的结果时,我们发现母语者对SV2TTS合成语音的攻击成功率(100%)高于非母语者(65%)。和以前一样,使用AutoVC合成语音的攻击是不成功的。
       

    4.3 Azure (开放的API, 真实世界的SR)

       我们在Azure(一个真实的SR部署)上运行了相同的4.2实验。Azure的开放API允许我们注册说话人,并针对他们注册的演讲者配置文件运行大量测试。但与4.2不同的是,不需要配置任何阈值。我们将来自4.2的90位目标说话人注册到Azure,并在所有测试中使用这些注册的配置文件。我们为每个实验生成和测试10个合成短语(如4.2)。由于Azure报告了每个样本的SR验收结果,所以我们报告了每次实验中所有合成样本的平均成功率。
       
       披露:我们遵循标准的公开实践,并向微软报告了DNN合成语音攻击的结果。
       
       结论:我们在Azure上测试了13000个合成语音实例,目标是90个扬声器。这些结果表明,Azure也容易受到DNN合成语音的影响。我们在各种因素的影响方面的研究结果反映了相似的研究结果。
       
       (1)攻击成功率默认设置
       图3a列出了总体攻击成功率。我们可以看到,DNN合成语音可以很容易地欺骗Azure,尽管攻击成功率比使用Resblyzer要低。有趣的是,在62.5%的目标说话者中,至少有1/10的合成短语(由SV2TTS生成)被Azure接受为目标说话者。因此,持久性攻击者可能会进行多次尝试,最终愚弄Azure API(假设对身份验证尝试没有限制)。
       另一个有趣的发现是,攻击成功率显示出显著高于那些在Resblyzer上观察到的方差。这对于SV2TTS尤其明显。当我们深入了解这种高方差时,我们发现,对于上述62.5%的目标(10次试验中至少有1次成功攻击实例),VCTK说话人的攻击成功率为 49.2 ± 23.5 % 49.2 \pm 23.5\% 49.2±23.5%LibriSpeech说话人的攻击成功率为 33.1 ± 21.4 % 33.1 \pm 21.4\% 33.1±21.4%。这些结果表明针对Azure的攻击性能在目标说话人之间是不一致的。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第6张图片
       (2) S T \mathfrak{S_T} ST S A \mathfrak{S_A} SA的大小、质量和语音相似性的影响
       我们从这些实验结果反映Resemblyzer:图3b显示了攻击的性能水平当N达到10;由 S T \mathfrak{S_T} ST的嘈杂版本合成的语音没有一个被Azure接受;而 S T \mathfrak{S_T} ST S A \mathfrak{S_A} SA的语音相似度不影响攻击结果。
       
       (3)目标性别的影响
       我们观察到在Azure中加入的男性和女性目标的攻击成功率有显著差异。图3c报告了使用SV2TTS的结果,其中针对女性说话人的攻击更有效。在AutoVC (VCTK)上也观察到类似的趋势。同样,当我们用目标说话人的清晰(非合成)语音测试Azure时,男性和女性扬声器的SR准确性都是100%。
       
       (4)目标口音的影响
       我们发现SV2TTS合成的样本对SpeechAccent说话人的攻击成功率为 8.8 ± 14.5 % 8.8 \pm 14.5\% 8.8±14.5%。其中,以英语为母语的人的攻击成功率为 15.0 ± 16.9 % 15.0 \pm 16.9\% 15.0±16.9%,而以非英语为母语的人的攻击成功率为 7.5 ± 13.9 % 7.5 \pm 13.9\% 7.5±13.9%
       

    4.4 微信和Amazon Alexa(封闭的API,真实世界的SR)

       最后,我们实验了另外两个真实世界的SR系统:微信和Amazon Alexa。与Azure相比,两者都采用了封闭API SR,极大地限制了我们的实验带宽。由于微信和AlexaSR系统连接到个人帐户,我们必须测试与真实用户的综合攻击。请注意,我们的目标不是测试微信或Alexa平台的(不)安全性,而是使用它们作为部署SR系统的案例研究,以说明基于DNN的语音合成攻击的潜在影响。
       
       实验设置
       我们进行了一个IRB批准的用户研究,以评估合成语音攻击(为了匿名,省略了IRB信息)。具体来说,我们收集研究参与者的语音样本,合成每个参与者的语音模仿,并将这些语音样本给每个参与者,以测试他们的微信和亚马逊Alexa应用程序。由于AutoVCRembylzerAzure上的性能较差,我们仅使用SV2TTS进行实验。
       
       我们招募了14名不同语言背景的参与者(1名母语为马拉地语;1名荷兰语母语人士;3名母语为普通话者;9名母语为英语者)和性别(10名女性/4名男性)。所有参与者都签署了书面同意书参加我们的用户研究,并获得了10美元的补偿。我们要求参与者提交一小组他们的录音。每位参与者使用语音备忘录录音应用程序,录下自己在彩虹段落中说的20句英语。彩虹段落通常用于语言学研究,因为它包含了英语(《Voice and articulation drillbook》)中的大多数音素组合。在这项研究中,7名参与者使用Macbook Pro, 4人使用iPhone 11+手机,1人使用谷歌Pixel手机。
       
       对于每个参与者 T \mathfrak{T} T,我们使用他们的提交语音录音作为目标语音样本集 S T \mathfrak{S_T} ST,并输入SV2TTS生成合成语音模仿 T \mathfrak{T} T。合成语音 S A \mathfrak{S_A} SA的内容被设计成与SR系统的上下文相匹配,我们将在下面描述(也见表4)。
       
       (1)微信使用一个依赖文本的说话者验证系统,要求在每次SR尝试时声明相同的8位登录号。每位参与者同意与我们的用户研究管理员分享他们唯一的登录号码,这些号码用于生成合成的登录语音样本。为了确保参与者的隐私和安全,登录号码被密码保护,匿名,并在研究结束时删除。对于每个参与者,我们生成六个合成的登录样本。
       
       (2)Alexa采用了一个与文本无关的扬声器验证系统,但它对声音配置的具体使用限制了我们可以测试的样本。我们创建了一个简短的Alexa命令列表,Amazon明确表示应该链接到用户的语音配置文件,将我们的注意力限制在原生Alexa技能(《What Are Alexa Voice Profiles?》)(见表4)。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第7张图片
       在设置了微信语音登录和Alexa语音配置文件(使用Alexa智能手机应用程序)后,所有14名参与者都验证了他们可以用自己的真实声音登录微信,并使用Alexa访问指定的应用程序。然后给他们合成的语音样本(微信的6个登录样本,Alexa的7个命令样本),并指示他们在离手机麦克风6英寸的电脑扬声器上播放每个样本。当目标应用程序被设置为执行正常的语音认证时,就会播放样本。每个参与者测试微信样本两次,Alexa样本一次。参与者记录了应用程序对合成样本的反应,并通过标准化表格报告结果。
       
       攻击效果评估
       总的来说,我们的用户研究分别用168和98个合成语音实例测试微信和Alexa。再一次,我们使用攻击成功率(AS)有效地评估合成语言可以愚弄SR系统。对于微信,如果登录被批准,则每个攻击实例都是成功的。对于Alexa,我们使用不同的方法,因为Alexa不提供明确的成功/失败结果:如果Alexa以同样的方式响应 S A \mathfrak{S_A} SA命令的干净(未合成)版本,则合成攻击实例 S A \mathfrak{S_A} SA成功。
       
       结果:在微信和Alexa上进行的所有测试中,我们的语音合成攻击的平均AS率为63%
       
       微信:14名参与者中有9名(64%)使用合成语音样本成功登录微信账户。总的来说,这表明语音合成攻击是针对微信的一种可行的认证攻击。然而,成功的假登录样本的数量在参与者之间存在显著差异(尽管对每个测试使用相同的设置)。平均每个参与者成功登录的次数为1.33±1.67次。对于一个参与者,所有6个登录示例都有效。对于其他8个成功登录的参与者来说,只有一两个样本能持续工作。
       
       Alexa:我们的攻击Alexa同样成功(62.2%AS平均)。所有14名参与者都至少有2条合成指令骗过了Alexa。这些合成命令能够访问私人电子邮件、检查日历约会和请求金融交易。表4报告了这些结果。此外,在有限的测试中,我们发现有时错误的声音(即来自不同的人)能够访问据称受声音配置文件保护的用户数据。
       
       扬声器的效果
       我们的研究参与者报告了用来播放他们攻击样本的设备。使用的设备包括LG台式显示器、Macbook ProsBose Soundlink speakeriPhone 11。我们检查了扬声器硬件对攻击成功的影响,发现两者之间没有相关性。虽然被测试的设备已经覆盖了在今天的家庭和办公室中发现的广泛的扬声器硬件,但如果攻击成功取决于扬声器质量,还需要更多的实验来量化。
       
       披露:我们遵循标准的披露实践,向微信和Amazon报告了我们的攻击。
       

    4.5 关键要点

       所有四个被测试的现代SR系统都容易受到基于DNN的语音合成攻击,特别是由SV2TTS产生的攻击。令人担忧的是,在三个流行的现实世界的SR系统(Azure,微信,Alexa)中,超过60%的注册说话人至少有一个合成(攻击)样本被这些系统接受。这清楚地展示了语音合成攻击的现实威胁。
       
       另一个关键的观察结果是,攻击性能与说话人有关,例如,成功愚弄SR系统的合成样本的数量在不同的说话人之间是不同的。对于RebesblyzerAzure来说,女性和以英语为母语的人的攻击成功率始终较高。
       
       局限和下一步
       我们的实验,尤其是在微信和Alexa上的实验,涉及了一组中等规模的目标说话人,以展示真实世界中语音合成攻击的威胁。为了进一步评估攻击对目标人类说话人的依赖性,我们认为可行的下一步措施包括扩大说话人池和测试更多的操作场景。有了这两种改变,我们就可以更仔细地研究个体的声音特征(如音调、重音、音调)如何影响攻击成功率,以及是否可以通过改进潜在的语音合成系统来降低它们的影响。
       
       同样,由于我们关注的是低资源攻击者,我们的实验使用了两个公开可用的语音合成系统(SV2TTSAutoVC),它们只在公开可用的数据集上进行训练。这两个系统很可能表现不佳,在更大的专有数据集上训练的高级合成系统,因此我们的报告结果仅提供了威胁的保守衡量。随着语音合成系统的不断发展,语音合成攻击的威胁(和破坏)将不断增加,值得我们不断关注。
       

  5 合成语音 VS 人类

       在证明了DNN合成语音可以很容易地欺骗机器(例如,现实世界的SR系统)之后,我们现在开始评估它们对人类的影响。先前的工作是通过调查来测量人类对经典(非DNN)工具合成的语音的感知(《All your voices are belong to us: Stealing voices to fool humans and machines》,《The Crux of Voice (In) Security: A Brain Study of Speaker Legitimacy Detection》),与此不同的是,我们评估了人类在不同交互环境下对DNN合成语音的敏感性。为此,我们进行了两项用户研究,包括静态调查和可信交互设置。接下来,在详细介绍这两项研究之前,我们将描述我们的用户研究背后的方法论,并对我们的主要发现进行预览。
       

    5.1 研究方法及主要研究结果

       攻击者 A \mathfrak{A} A可以使用合成语音对人类监听者进行多种攻击。如果听者对被欺骗的声音的所有者熟悉程度有限,这种攻击可能特别有效。例如, A \mathfrak{A} A可以使用合成声音进行典型的鱼叉式网络钓鱼攻击,老年受害者接到被困在外国、需要紧急现金回家的孙子的电话,他们已经几个月没见了。或者员工接到老板打来的电话,确认早些时候(钓鱼)的电子邮件授权转账(《Fraudsters Used AI to Mimic CEO s Voice in Unusual Cybercrime Case》)。
       
       考虑到这些,我们关于合成声音对人类听者的影响的研究有两个目标:了解人类听者在独立和可信的语境下对合成声音的敏感性。我们为研究的两个部分设计了实验方案,详细考虑了伦理问题和对参与者的影响。所有方案都经过我们机构的IRB审查委员会的仔细评估和批准。我们将在第7节讨论伦理方面的考虑。
       
       用户研究A(网上调查)
       我们首先评估人类是否能够辨别真实和DNN合成(假)语音的区别。我们进行了一项在线用户调查,并比较了参与者对不同熟悉程度的声音(例如,陌生人和名人)识别合成语音的能力。我们还通过比较两种情况的结果来衡量启动效应:一种情况下,参与者被告知语音样本将包含真实和虚假的语音,另一种情况下没有披露。
       
       结果:在这个调查设置中,DNN合成的语音不能一直愚弄人类。当参与者对说话人更熟悉时,以及当他们意识到某些语音可能是假的时,他们更容易区分真假语音(因此倾向于带着怀疑的态度仔细倾听)。
       
       用户研究B(欺骗性缩放访谈)
       我们试图更好地了解语境对听者对虚假话语敏感性的影响。为此,我们通过Zoom的电话进行采访。参与者认为他们是在和两个(人类)研究人员说话,但实际上其中一个声音是合成的。
       
       结果:在这个可信的环境中,所有14名参与者在面试中都没有表现出任何犹豫或怀疑,并欣然回应和服从了假面试官的所有要求。换句话说,在这个可信的采访环境中,合成的声音一直在愚弄人类。
       

    5.2 用户研究A:用户能分辨合成语音和真实语音吗?

       我们从一个关键的问题开始我们的人类感知实验:人类的听者能够区分说话人的合成语言和真实的语言吗?我们进行了一项调查来评估用户辨别真假演讲者的能力。
       
       参与者:我们通过在线众源平台Prolific招募了200名参与者。他们都认为自己是居住在美国的母语是英语的人。在我们的参与者中,57%为女性(43%为男性)。研究对象均为18岁以上人群,涵盖18-29岁(43%)、30-39岁(32%)、40-49岁(14%)、50-59岁(8%)、60岁+(3%)等多个年龄段。调查的设计是平均10分钟,参与者得到2美元作为补偿。该研究得到了我们当地IRB的批准。
       
       过程:参与者完成了一项在线调查,其中包括几个成对呈现的语音样本,用于并排比较。每对样本包含以下三种组合之一:同一说话人的两个真实语音样本(在本节中称为Real A/ Real A);一个真实的说话样本和一个不同的说话样本(Real a /Real B);或者一个说话人的真实讲话样本和一个模仿说话人的虚假语音样本(Real A/ Fake A))。我们使用SV2TTS生成假语音,使用来自说话人的30秒干净语音样本 S T \mathfrak{S_T} ST
       
       说话人类型:我们包括了那些(真实的)声音与参与者熟悉程度不同的说话人
       (1)不熟悉的说话人:来自VCTK(《CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit》)数据集的说话人,他们的声音(很可能)从未被参与者听到过。
       (2)简单熟悉的说话人:受(《All your voices are belong to us: Stealing voices to fool humans and machines》)的启发,我们加入了一组说话人,参与者只能简短地听到他们的声音。我们为每位说话人提供了简短的音频片段,让他们熟悉说话人的声音。我们为每一个人提供了不同长度的音频剪辑,第一个人30秒,第二个60秒,第三个90秒,第四个人120秒。
       (3)著名说话人:我们使用了两位美国公众人物的声音:唐纳德·特朗普和米歇尔·奥巴马。我们问参与者他们是否在本次调查之外听到过这些声音,超过90%的人回答是。
       
       任务:参与者们听了几组语音样本,并报告两个样本是否是同一个人说的。
       
       条件:我们部署了两个版本的调查。这两个版本都要求参与者评估说话人的身份和语音样本的质量。第一个版本根本没有提到假语音。第二个版本的调查在它的标题和它对任务的描述中提到了假语音。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第8张图片

       结果:我们力图回答以下问题:
       (1)参与者是否认为生成的假语音是原说话人说的?
       如表5所示(底部一行),大约一半的参与者被愚弄了,即他们回答是或不确定,当被问及这个问题不熟悉或短暂熟悉的发言者。对于声音参与者普遍熟悉的著名演讲者,这个数字下降到20%。
       
       (2)从说话者那里听到更多的样本(例如更了解说话者)是否会让假语音更容易被察觉?
       表5的结果表明,对说话人的熟悉程度越高,对假语音的怀疑程度就越高。与6年前进行的一个类似的用户研究(《All your voices are belong to us: Stealing voices to fool humans and machines》)相比,参与者正确识别不熟悉或短暂熟悉的说话人的假声音的比例是一致的(我们的工作是50%,(《All your voices are belong to us: Stealing voices to fool humans and machines》)是48%)。然而,在我们的调查中,参与者在识别来自著名说话人的假语音时更准确(在(《All your voices are belong to us: Stealing voices to fool humans and machines》)中是80% vs. 50%),也许反映了对语音合成攻击的更高的普遍意识。
       
       (3)在调查描述中提到虚假语音是否改变了参与者对虚假语音样本的感知?
       在调查描述中提及假语音对调查应答的影响具有统计学意义。图4显示了对提到虚假语音的调查版本的反应如何反映出对虚假语音明显增加的怀疑。
       使用独立卡方测试,我们比较了两个调查版本中每个说话人熟悉程度的反应,看看这种变化是否具有统计学意义。
              (i)对于不熟悉的说话人,除了一个说话人,所有人都有一个显著的(p < 0.05)反应差异。
              (ii)对于有些熟悉的说话人来说,同样的,除了一个说话人,所有的说话人都有一个显著的(p < 0.05)反应差异。
              (iii)对于著名的说话人来说,只有特朗普在响应上有统计学上的显著差异。
       
       (4)参与者的人口统计(年龄,性别)是否影响反应?
       女性和年轻人更容易辨别真假说话人。使用独立卡方测试,我们比较了男性、女性和年轻人(年龄<25)给老年人(年龄>45).对于不熟悉的说话人,有统计学意义(p <0.05)性别和年龄组间的反应差异。对于一些熟悉和著名的说话人,观察到一些(但不是所有)说话人在统计上的显著差异。
       

    5.3 用户研究B:用户如何在可信设置中与合成语音交互?

       我们的用户研究A证实,DNN合成语音在调查设置中未能持续愚弄人类。除此之外,我们还想知道,用户接触虚假语音的环境如何影响他们对这些攻击的敏感度。具体来说,如果参与者倾向于不对他们听到的声音进行批判性思考,那么他们会如何表现呢?此类可信设置的示例包括与同事的电话或Zoom会议,或与一个或多个他们认识(或认为认识)的人打电话。在这些所谓的可信环境中,人们的行为可能与基于调查的环境中的行为不同。当人们受到环境的影响,认为他们在和真人说话时,他们可能更容易把虚假的语音当作真实的。
       
       研究设计:为了了解可信设置对人类与虚假语音互动的影响,我们进行了一个涉及欺骗性访谈的用户研究。
       
       伦理:本研究得到了我们机构IRB的批准。参与者在访谈前提交了一份签署的同意书,并在访谈后接受了完整的汇报,以告知他们欺骗行为和研究的真实目的。访谈结束后,所有参与者的个人信息均不保留,访谈记录均采用匿名方式,以保护参与者的隐私。
       
       参与者:受访者来自本校计算机科学系的学生。我们共进行了14次访谈。12名受访者为男性(2名女性)。他们的年龄都在20 - 35岁之间,有着不同的民族/种族背景(美国人、中国人、印度人、印度尼西亚人、土耳其人)。采访时间大约为10分钟,参与者得到了一张价值10美元的亚马逊礼品卡作为补偿。
       
       过程:招聘电话要求参与一项关于语音识别系统(如Siri)的使用以及他们对这些系统隐私的看法的面试研究。每次采访都是通过Zoom电话进行的,两名论文作者担任面试官。其中一名采访者(以下简称“真采访者”)在整个阶段的面试中使用了真实的声音,而另一名采访者(以下简称“假采访者”)在真实声音的基础上使用了虚假的语音样本。所有的假语音样本都是使用SV2TTS合成系统和来自假面试官不到5分钟的真实语音样本生成的。在整个面试过程中,假面试官把一个iPad Pro放在面试官的电脑麦克风旁边,播放假面试官的演讲样本。
       
       在欺骗部分的结论之后,我们揭示了使用假语音样本,并在提出一些额外的问题之前披露了我们的研究目标。参与者的回答被每个面试官分别分类和编码,他们随后会面,合并编码并解决差异。除非另有说明,以下所描述的所有主题均由>= 3名参与者表达。
       
       由于所有被采访者都是作者所在学术部门的成员,他们对采访者的熟悉程度不同,从一般知识到频繁的社会互动。在每次面试结束时,参与者被要求对他们对面试前面试官声音的熟悉程度进行评分,从1(完全不熟悉)到5(非常熟悉)。表6列出了熟悉度排名的分布。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第9张图片
       任务:本次阶段面试由8个问题组成,涉及自动语音识别系统的使用和对隐私的感知(见表7)。其中5个问题由真实面试官提问,3个问题由假面试官提问。这三个假的面试问题旨在从面试者那里引出三种不同类型的行为:会话反应(Q2)、网站访问(Q5)和个人信息(Q7)。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第10张图片
       条件:参与者并没有被告知这项研究实际上是关于假说话的感知,他们也不知道其中一个面试官使用了假声音。当参与者加入Zoom电话时,真正的采访者告诉他们,电话中的每个人都将他们的视频关闭,以保护受访者的隐私。在现实中,不播放视频可以防止参与者发现假面试官用的是假声音。我们还询问了受访者是否可以将采访记录下来,以便记录他们的回答。
       
       由于假面试官的声音质量相对较低(见5.2),因此面试者会认为假面试官的声音质量较低。14位参与者中有10位在开始提问前,真正的面试官注意到假面试官感觉不舒服,在面试过程中只会断断续续地插话。我们在后面的部分中检验了从访谈中排除这一启动陈述的效果。
       
       结果:在与假面试官的声音进行交流时,没有人表现出怀疑或犹豫。这14人都毫不犹豫地回答了假面试官提出的3个问题,访问了要求访问的网站,甚至把自己的学生证号码给了面试官。在面试结束后,谎言被揭穿,14名参与者中只有4人表示他们认为假面试官的声音有问题。重要的是,这四名参与者(有意地)没有被告知假面试官感冒了。下面,我们将探讨这项研究中最有趣的结果,并强调几个关键的局限性。
       
       (1)对假声音的反应:在欺骗后的采访中出现了几个主题,总结如下。
              (i)完全惊讶:当骗局被揭穿时,四名参与者从视觉和听觉上都感到震惊。P5说,我真的以为是你,好像是100%,而P10,在一阵震惊的沉默之后,说计算机刚刚赢得了图灵测试。
              (ii)对生病的借口感到满意:7名参与者明确表示,生病的借口打消了他们对假面试官声音的顾虑。P4说我觉得完全可以,我以为你病得很重,而P2说这真的有点让人担心(你听起来有多病)。
              (iii)默默怀疑:4名参与者(P9、P12、P13、P14)在骗局被揭露后表达了怀疑。P12和P13说,听起来像是说话人感冒了,P14则认为是质量不好的麦克风。
       
       (2)为什么没有提出意见:在骗局被揭露后,参与者被要求找出面试结构中增加他们对假面试官信任的因素。当然,有些人完全不知情,也没有想过要问这些假面试官。然而,其他人注意到第二个(显然是人类)采访者的存在,社会惯例和采访请求的来源(来自我们部门内部)增强了他们的信任。
              (i)真面试官在场:一些参与者认为这次面试是团队合作的,真面试官和假面试官串通一气,使得面试的谎言更可信。我觉得(真正的面试官)很明显,人的存在在(我什么都不说)中起了很大的作用。(P9)。
              (ii)礼貌的社会习俗:许多参与者指出,他们觉得在面试时谈论假面试官的声音会让他们感到不舒服或错误。当被问及为什么对假采访者的声音质量只字不提时,P12惊呼道:“这真是一种侮辱!”
              (iii)面试请求的来源:由于我们是从部门内部招聘的,所以招聘信息是通过只有部门成员可以访问的可信渠道(即email list-serv, Slack)发出的。P9在汇报过程中表达了怀疑,但承认了研究的来源。看起来是合法的线人所以我才会全程参与我们的调查。
       
       (3)什么会让参与者产生怀疑:当被要求阐明什么会让他们更加怀疑时,参与者的回答各不相同。
              (i)“什么都没有”:参与者对这个骗局感到最惊讶的是,他们声称没有什么会让他们质疑假面试官的可信度:“我很高兴你们没有问我要银行账户,因为……我会把它给你。
              (ii)要求提供更多的个人信息:一位与会者表示,我认为您想要的信息不是非常敏感,[所以]我不明白为什么我需要关注这个(P6)。IRB的限制阻止我们索要任何比学生证更私人的东西,用于访问我们大学的服务。虽然不是公开的,但这些信息本身并不敏感。
       
       (4)熟悉面试官的影响:7名参与者对两个面试官的声音的熟悉程度打分为1分(总分为5分)(例如,两者都不熟悉)。然而,他们的回答与之前熟悉其中一位或两位采访者声音的其他参与者一致。只有一个参与者(P8)提到那个声音确实看起来很奇怪,但因为我信任你们两个,所以我就随声附和了。这些结果表明,可信的环境和人的存在可能比事先熟悉说话人的声音更重要。
       
       (5)启动声明效应:为了检验“生病”借口对假声音可信度的影响,我们进行了四次访谈,参与者不被告知假面试官生病了。在这些访谈中,参与者在面试过程中对假面试官表现出了更高程度的怀疑。其中一人声称“这显然是一个假声音”(P11),但根据他们在其他欺骗研究中的经验,他们决定什么都不说。另外一些人并没有看穿他们的欺骗,但确实注意到“我感觉很奇怪”(P13)和“我只是觉得你的声音很奇怪”(P14)。
       

    5.4 主要词语

       我们的两个用户研究(A & B)说明环境和人口结构影响合成语音对人类用户的可信度。在研究A中,我们发现提到假语音增加了参与者对他们听到的假说话人的怀疑。此外,研究A中的女性和年轻参与者更有可能正确识别假说话者。
       
       我们从研究B中得到的关键结论是,假声音在可信的面试环境中愚弄了人类。特别有趣的是,我们研究B的所有参与者都是计算机科学专业的研究生,其中一些人积极研究安全或机器学习。我们最初的假设是,计算机科学专业的研究生将是最难被假声音欺骗的目标之一。但在采访过程中,没有人对假声音表示怀疑。
       
       局限和下一个步骤
       研究B的参与者在性别、年龄和教育背景上基本上是同质的。为了进行可信的访谈,我们的参与者来自我们的学术部门(计算机科学)。我们参与者的性别分类和局里的一致,男性比例严重偏大。在研究A中观察到的性别和年龄对反应的影响可能也会扩展到研究B中。因此,一个可行的后续工作是进行更大、更多样化的用户研究,以提供更细致的了解可信设置中的合成语音攻击。
       
       另外,在研究B中,我们所信任的采访遵循的是一种只有语音的形式,即语音是互动的唯一媒介。然而在现实场景中,面试者可以使用双因素认证机制来验证可信的设置,例如,要求面试官打开视频,或者用一些口头测试来挑战面试官。这些联合验证方法可以使攻击更加困难,允许人类用户有效地防御语音合成攻击。我们认为这是后续工作的重要方向。
       

  6 评估现有防御

       鉴于这些攻击的威力,我们现在要问:我们能做些什么来阻止它们?为了减轻基于语音的欺骗攻击,已经提出了许多防御措施,其中许多都有重大的假设,限制了它们的实际适用性。在这里,我们根据我们的威胁模型考虑一系列防御措施,并注意到与不同方法相关的局限性。最后,我们实验评估了两种代表性的防御:一种是利用重放(《Void: A fast and light voice liveness detection system》)中的物理伪影来检测合成语音,另一种是通过嵌入音频扰动(《Defending Your Voice: Adversarial Attack on Voice Conversion》)来阻止语音合成。
       

    6.1 现有防御:检测和预防

       在表8中,我们将现有的防御划分为多个类别,并注意到每个类别的方法和关键限制。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第11张图片
       检测合成语音/说话人
       大多数防御通过检测特定的伪影(环境或特定的语音)来对抗重放或合成攻击。我们进一步将这些防御分为三类:活性检测,说话人检测,或合成伪迹检测。
       表8中的大多数检测防御都对使用上下文做了强有力的假设。有些需要特定的录音设备,有些需要麦克风相对于说话人的精确位置,甚至需要在录音过程中小心地移动麦克风,这引起了重要的易用性和可用性问题。这些假设清楚地限制了这些防御在我们的现实场景中的适用性,例如在Alexa和微信上的那些。在大多数情况下,防御者无法控制野外录音设备的位置和移动。
       
       防止非法语音合成
       一条正交的工作线试图通过在音频样本中嵌入扰动来将它们在特征空间(《Defending Your Voice: Adversarial Attack on Voice Conversion》)中移位来阻止声音合成。这是防止综合攻击(而不是事后发现它们)的唯一通用防御。
       
       防御我们评估
       从表8中列出的防御中,我们选择评估两种具有代表性的防御。从检测防御的集合中,我们选择Void(《Void: A fast and light voice liveness detection system》),因为它最近,高性能,和相对较少的操作约束。Void利用低频谱频率来区分人类语言和通过重播的语音。我们还评估了Attack-VC(《Defending Your Voice: Adversarial Attack on Voice Conversion》),这是我们所知道的防止声音合成的唯一系统。最后,我们还评估了当VoidAttack-VC结合在一起时,可以形成更强的防御。
       

    6.2 利用Void检测合成语音

       Void(《Void: A fast and light voice liveness detection system》)保护系统免受合成语音攻击。它识别出了97个不同的低频频谱特征,这些特征区分了人类语音和重播的语音。这些特征可以用来训练各种检测模型。由于微信/Alexa攻击依赖于重放合成语音,这种防御适用于我们的设置。在最初的文章中,Void在重放攻击上进行了广泛的测试,但在合成攻击上的测试却很粗略。
       
       研究方法
       我们重建了(《Void: A fast and light voice liveness detection system》)的特征提取管道,并使用2017 ASVSpoof数据集(《The ASVspoof 2017 challenge: Assessing the limits of replay spoofing attack detection》)训练三个模型。像Void,我们报告等于错误率(EER)为每个训练模型,并检测成功率(即模型辨别真实/重放语音的能力)。当一个系统的假阳性和假阴性率相等时测量EER,通常用于报告生物识别系统的性能。我们的训练模型的EER值与原始论文中报道的相当。
       (1)基于RBF核的支持向量机(SVM):这个模型在(《Void: A fast and light voice liveness detection system》)中报告的性能最好。
       (2)LightCNN:(《Audio Replay Attack Detection with Deep Learning Framework》)提出了一个27层的DNN用于合成语音检测,也在(《Void: A fast and light voice liveness detection system》)中进行了评估。我们使用与(《Audio Replay Attack Detection with Deep Learning Framework》)相同的架构和参数,但是修改了输入大小以适应(《Void: A fast and light voice liveness detection system》)的97个特征。
       (3)Custom CNN:我们的最后一个模型是一个定制的5层CNN。我们使用lr = 0.001Adam优化器对这个模型进行25个周期的训练。
       
       我们在一个重放合成样本的自定义数据集上测试模型(目标是VCTK说话人)。合成样品在SV2TTS上生成,每个说话人有N = 20个源文件。它们在两种不同的设备上重播(一个UE Boom扬声器和LG UltraFine 4K显示器),并使用距离音源6英寸的iPhone 11录制。每个重播集包含了来自20个不同说话人的200个样品。为了比较,我们从相同的说话人中添加200个干净的样本到每个重放的集合中。
       
       结论:在我们的两个自定义数据集中,Void可靠地区分真实和合成样本,但在所有模型中具有较高的EERs(即假阳性/阴性率),如表9所示。所有型号均有>检测成功率为88%,但所有模型的EER值均为>5%。高性能的生物识别系统通常具有EER <1%。
       
       讨论:在我们的设置中,Void的高EER使得它在实践中效率较低,尽管原始论文在使用自定义训练数据集时报告的EER要低得多。如果定制训练数据集更广泛地可用,Void可以为微信/Alexa攻击等场景提供有效的保护。
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》_第12张图片
       

    6.3 利用Attack-VC防止语音合成

       Attack-VC(《Defending Your Voice: Adversarial Attack on Voice Conversion》)是设计来保护用户从他们的声音复制通过语音合成。Attack-VC添加了精心设计的干扰语音样本,破坏未经授权的未来的语音合成。在Attack-VC中嵌入扰动生成方法假设完全了解下游语音合成模型 A \mathfrak{A} A(即白盒威胁模型)。一个防御者使用 A \mathfrak{A} A的说话人嵌入分量来创建一个有尺寸限制的扰动 δ \delta δ,该扰动将其样本 x x x的说话人嵌入移动到另一个样本 d d d的说话人嵌入。那么,对手 A \mathfrak{A} A窃取了受害者 T \mathfrak{T} T的辩护样本 x + δ x+\delta x+δ,不能使用 M \mathfrak{M} M成功合成一个假声音样本。合成的 S A \mathfrak{S_A} SA听起来不应该像 T \mathfrak{T} T
       
       研究方法
       我们使用VCTK数据集和两个模型AutoVCSV2TTS(如4.2)进行了小规模研究。我们使用与4.2中相同的20个VCTK说话人子集。使用作者提供的代码(《Attack-VC Github Implementation》),我们为每个说话人生成19个防护样本(使用其他说话人作为优化目标)。我们测试三个扰动水平, ϵ = 0.01 , 0.05 , 0.1 \epsilon= 0.01,0.05,0.1 ϵ=0.01,0.05,0.1,与Attack-vc一致。
       
       我们注意到从Attack-vc得到的原始扰动损失函数 L \mathcal{L} L并不能充分约束扰动大小。这导致了大的扰动,使防御的音频样本听起来不像人类。为了解决这个问题,我们在 L \mathcal{L} L中添加了一项(新项是粗体):
L = α ⋅ M S E ( x + δ , d ) − β ⋅ M S E ( x + δ , x ) + γ ⋅ ∣ ∣ δ ∣ ∣ (1) \mathcal{L} = \alpha \cdot MSE(x+\delta,d) - \beta \cdot MSE(x+\delta,x) + \gamma \cdot ||\delta|| \tag{1} L=αMSE(x+δ,d)βMSE(x+δ,x)+γδ(1)       其中MSE代表了均方误差。这一附加项使扰动的声音更少,但不影响攻击的成功。根据经验,设置 α , β = 1 \alpha,\beta = 1 α,β=1 γ = 0.1 \gamma = 0.1 γ=0.1效果最好。每100次迭代, γ \gamma γ乘以0.99。
       
       然后,利用4.2的方法对被保护样本进行语音合成。防御样品和由防御样品合成的样品都在AzureResemblyzer中进行了评估。
       
       结果
       如图5所示,Attack-VC确实阻止了语音合成,但它也破坏了被保护的样本,使其无法被可靠识别。对于两种模型和所有的说话人识别系统,从防御样本中合成的说话人识别准确率低于35%,这意味着在Attack-VC之后合成的攻击不太成功。然而,被保护样本的说话人识别准确率最高为55%,这意味着它们不能正确匹配真正的说话人。此外,即使我们对扰动大小有额外的限制,被保护的样本仍然有显著的听觉失真。
       

    6.4 结合Void和Attack-VC

       最后,我们评估了结合了VoidAttack-VC的更强大的防御,但发现它只提供了有限的收益。在这个实验中,我们测试了VoidAttack-VC保护样本合成的语音的检测效果,不同的干扰水平 ϵ = 0.01 , 0.05 , 0.1 \epsilon= 0.01,0.05,0.1 ϵ=0.01,0.05,0.1。我们发现,使用 ϵ < 0.1 \epsilon < 0.1 ϵ<0.1只能比普通合成语音检测好2-4% (EERs较低)。
       

    6.5 关键要点

       我们的结果表明,需要新的和改进的防御合成语音攻击,特别是防御可推广到足够的实际应用。虽然Void可以可靠地检测通过扬声器播放的假语音,但它的适用性仅限于重放攻击。与此同时,现有的诸如Attack-VC等预防措施会使声音失真,使其无法识别,并可能受益于使用声学隐藏技术(《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》)。这些防御也假设了攻击者的语音合成模型的完美知识(白盒),这在现实世界中是不现实的。
       
       局限和下一步
       我们只评估了两种具有代表性且表现最好的防御(每种防御一个)及其综合效果。需要进行更全面的调查,尤其是在新的防御措施出现的时候。
       我们还注意到,目前的防御重点是保护SR系统。然而,我们在5.3中的结果表明,同样需要以人为中心的防御来对抗合成语音。一个可能的方向是使合成语音对人类观众更加明显,要么通过破坏其生成过程,使语音听起来不像真人(例如,Attack-VC尚未达到的目标),要么设计并行认证方法(例如,视频反馈或声音挑战),帮助暴露假冒的说话人。
       

  7 结论

       我们的工作代表了理解基于深度学习的语音合成攻击的现实威胁的第一步。我们的结果表明,使用公共系统生成的合成语音已经可以愚弄人类和当今流行的软件系统,而现有的防御是不够的。因此,我们的工作强调了人类和机器对抗语音合成攻击的新防御的必要性,促进了进一步的研究工作,以探索后续的挑战和机会,同时为未来的研究提供了坚实的基准。
       
       

Wenger E, Bronckers M, Cianfarani C, et al. " Hello, It’s Me": Deep Learning-based Speech Synthesis Attacks in the Real World[C]//Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security. 2021: 235-251.

你可能感兴趣的:(语音对抗,语音伪造,语音防御,深度学习,语音检测,语音合成,语音转换)