【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》 您所在的位置:网站首页 翻译Bob人 【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》

【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》

2024-02-15 04:04| 来源: 网络整理| 查看: 265

《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》论文学习

文章目录 《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》论文学习  摘要  I 介绍  II 背景    II-A 说话人识别系统(SRS)    II-B 威胁模型   III 方法    III-A 动机    III-B 设计理念    III-C 我们的攻击概述:FAKEBOB   IV 我们的攻击:FAKEBOB    IV-A 问题形式化    IV-B 对OSI系统的攻击    IV-C 对CSI系统的攻击    IV-D 对SV系统的攻击   V 攻击评估    V-A 数据集与实验设计    V-B 效果与效率    V-C 可迁移性    V-D 空中攻击的实用性    V-E 通过人类研究证实人类的不可感知性    V-F FAKEBOB对防御方法的鲁棒性   VI 讨论可能的军备竞赛  VII 相关工作  VIII 结论

  摘要

       说话人识别(SR)作为一种生物特征认证或识别机制在我们的日常生活中得到了广泛的应用。SR的流行带来了严重的安全问题,最近的对抗攻击证明了这一点。然而,这种威胁在实际的黑盒场景中的影响仍然是未探索的,因为当前的攻击只考虑白盒场景。                在本文中,我们首次对SR系统(SRSs)进行了全面和系统的对抗攻击研究,以了解其在实际黑盒场景下的安全弱点。为此,我们提出一种对抗攻击,名为FAKEBOB,来制作对抗样本。具体地说,我们将对抗样本生成作为一个优化问题,结合对抗样本的置信度和最大失真来平衡对抗语音的强度和不可感知性。一个关键的贡献是提出了一种新的算法来估计分数阈值,这是SRSs中的一个特征,并将其用于优化问题来解决优化问题。我们证明,FAKEBOB在开源和商业系统上都达到 99 % 99\% 99%的目标攻击成功率。我们进一步证明,当在现实世界中通过空气播放时,FAKEBOB在开源和商业系统上也都是有效的。此外,我们还进行了一项人类研究,表明人类很难区分说话者的原始声音和对抗声音。最后,我们展示了四种很有前景的语音识别领域对抗攻击的防御方法在SRSs对FAKEBOB无效,这需要更有效的防御方法。我们强调,我们的研究窥探了对SRSs的对抗攻击的安全含义,并实际上促进了提高SRSs的安全鲁棒性。        

  I 介绍

       说话人识别(《An overview of text-independent speaker recognition: From features to supervectors》)是一种从包含说话人音频特征的话语中识别一个人的自动技术。从生物特征认证(《TD Bank voiceprint》)、法医鉴定(《Forensic and automatic speaker recognition system》)到智能设备个性化服务(《Secure smart home: A voiceprint and internet based authentication system for remote accessing》),说话人识别系统(SRSs)在我们的日常生活中无处不在。机器学习技术是实现SRSs(《An improved uncertainty propagation method for robust i-vector based speaker recognition》)的主流方法,但它们容易受到对抗攻击(如《Evasion attacks against machine learning at test time》,《Intriguing properties of neural networks》,《Advanced evasion attacks and mitigations on practical ml-based phishing website classifiers》)。因此,理解SRSs在对抗攻击下的安全含义是至关重要的。                尽管对图像识别系统的对抗攻击已经成功移植到白盒场景(如《Audio adversarial examples: Targeted attacks on speech-to-text》,《Commandersong: A systematic approach for practical adversarial voice recognition》)和黑盒场景(如《Targeted adversarial examples for black box audio systems》,《Adversarial black-box attacks for automatic speech recognition systems using multi-objective genetic optimization》)的语音识别系统上,但对SRSs的研究相对较少。从本质上讲,话语信号由两大部分组成:潜在的语义内容和说话人的特征。为了提高性能,语音识别将最小化与说话人相关的变化,以确定潜在的文本或命令,而说话人识别将把语音变化作为外来噪声来确定语音信号的来源。因此,针对语音识别系统的对抗攻击可能对SRSs无效。                对SRSs的对抗攻击旨在从某个源说话者发出的声音中制作一个样本,这样被攻击的系统就会将其错误地分类为已登记的说话人之一(非目标攻击)或目标说话人(目标攻击),但仍被普通用户正确识别为源说话人。虽然目前对SRSs(《Crafting adversarial examples for speech paralinguistics applications》,《Fooling end-to-end speaker verification with adversarial examples》)的对抗攻击很有前途,但它们存在以下三个局限性:(1)通过假设攻击者可以访问目标SRSs的信息,它们被限制在白盒场景中。在一个更现实的黑盒场景中的攻击仍然是未探索的。(2)他们只考虑闭合集识别任务(《Crafting adversarial examples for speech paralinguistics applications》)(总是将任意声音分类为已登记的说话者之一(《Factor analysis method for text-independent speaker identification》))或说话人验证任务(《Fooling end-to-end speaker verification with adversarial examples》)(检查输入声音是否由唯一已登记的说话人发出(《Speaker verification using adapted gaussian mixture models》))。开放集识别任务(《Open-set speaker identification using adapted gaussian mixture models》)严格地包含了封闭集识别和说话人验证,对它的攻击仍然是未探索的。(3)他们不考虑空气中的攻击,因此不清楚他们的攻击在现实世界中空中播放时是否仍然有效。因此,在本工作中,我们研究了实际黑盒环境下SRSs所有三个任务的对抗攻击,试图了解实际中SRSs在对抗攻击下的安全弱点。                在这项工作中,我们主要关注黑盒场景,它假设对手可以获得最多的决策结果和每个输入语音的评分。因此,黑盒场景中的攻击比现有的白盒攻击(《Crafting adversarial examples for speech paralinguistics applications》,《Fooling end-to-end speaker verification with adversarial examples》)更实用,也更具有挑战性。我们强调,在不同的识别任务(《Fundamentals of Speaker Recognition》)中,SRSs的评分和决策机制是不同的。特别地,我们考虑了40种攻击场景(如图2所示),这些场景在攻击类型(有针对性的vs.无针对性的)、攻击渠道(API vs. 空气传播)、源和目标说话者的性别以及SR任务(II-B)方面完全不同。我们在16个典型的攻击场景中演示我们的攻击。                要发动这样一场实际的攻击,需要解决两个技术挑战:(C1)在黑盒环境中制作对抗样本,尽量不被察觉;(C2)使攻击切实可行,也就是说,对抗样本对未知的SRS有效,即使在物理世界中通过空气传播。在本文中,我们提出了一个实用的黑盒攻击,名为FAKEBOB,它能够克服这些挑战。                具体地说,我们将对抗样本生成定义为一个优化问题。优化目标由置信参数和噪声振幅最大失真 L ∞ L_{\infty} L∞​范数来参数化,以平衡对抗声音的强度和不可感知性,而不是使用噪声模型(《Commandersong: A systematic approach for practical adversarial voice recognition》,《Robust audio adversarial example for a physical attack》,《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》),由于其设备和背景依赖性。我们还将分数阈值(SRSs中的一个关键特性)纳入优化问题。为了解决优化问题,我们利用了一种有效的梯度估计算法,即自然进化策略(NES)(《Black-box adversarial attacks with limited queries and information》)。然而,即使有估计的梯度,现有的基于梯度的白盒方法(如《Explaining and harnessing adversarial examples》,《Adversarial examples in the physical world》,《Commandersong: A systematic approach for practical adversarial voice recognition》,《Towards evaluating the robustness of neural networks》)都不能直接用于攻击SRSs。这是由于分数阈值机制,如果预测分数小于阈值,攻击就失败。为此,我们提出了一种估计阈值的新算法,在此基础上,我们利用基本迭代法(BIM)(《Adversarial examples in the physical world》)估计梯度来解决优化问题。                我们评估了FAKEBOB对研究界流行的开源平台Kaldi中的3个SRSs(即ivector-PLDA(《Frontend factor analysis for speaker verification》)、GMM-UBM(《Speaker verification using adapted gaussian mixture models》)和xvector-PLDA(《Speaker recognition for multi-speaker conversations using x-vectors》))和2个商业系统(即:Talentedsoft和Microsoft Azure是私有的,没有任何关于内部设计和实现的公开信息,因此完全是黑箱。我们使用16种典型攻击场景(40种)评估FAKEBOB,基于以下五个方面:(1)有效性/效率,(2)可迁移性,(3)实用性,(4)不可感知性,和(5)鲁棒性。                结果表明,FAKEBOB在ivector-PLDA、GMM-UBM和xvector-PLDA系统的所有任务上平均达到 99 % 99\% 99%的目标攻击成功率(ASR),在商业系统Talentedsoft上平均在2500个查询内达到 100 % 100\% 100%的目标攻击成功率(V-B)。为了证明可迁移性,我们在跨架构、跨数据集、跨参数的情况下,以及商业系统Microsoft Azure上,对ivector-PLDA、GMM-UBM和xvector-PLDA系统的可迁移性攻击进行了综合评估。除了Microsoft Azure的说人验证外,FAKEBOB的可转移性(攻击成功率)达到 34 % − 68 % 34\%-68\% 34%−68%。可迁移率可以通过制作高可信度的对抗样本来提高,但代价是失真增加。为了进一步证明实用性和隐蔽性,我们在物理世界中发起空中攻击,并在亚马逊土耳其机器人平台上进行了人类评估。结果表明,FAKEBOB在现实世界中对开源系统和Microsoft Azure的开放集识别任务(V-D)进行空中播放时是有效的,人类很难区分原始音频和对抗音频的说话人(V-E)。                最后,我们研究了四种在语音识别领域有前景的防御方法:音频压缩(《Commandersong: A systematic approach for practical adversarial voice recognition》)、局部平滑、量化和基于时间依赖的检测(《Characterizing audio adversarial examples using temporal dependency》),因为它们缺乏针对SRSs的对抗攻击的领域特异性防御方案。结果表明,这些防御方法对FAKEBOB的影响有限,表明FAKEBOB是一种实用的、强大的对SRSs的对抗攻击。                我们的研究揭示了SRSs在黑盒对抗攻击下的安全弱点。这个弱点可能会导致许多严重的安全问题。例如,攻击者可以对金融交易(《TD Bank voiceprint》,《Citi uses voice prints to authenticate customers quickly and effortlessly》)和智能设备(《Secure smart home: A voiceprint and internet based authentication system for remote accessing》)发起对抗攻击(如FAKEBOB),绕过生物识别认证,对高安全性智能语音控制系统(《The voice-enabled car of the future》)发起后续语音指令攻击,如:司令之歌(《Commandersong: A systematic approach for practical adversarial voice recognition》)和隐藏的声音命令(《Hidden voice commands》)。对于使用Dragon Drive(《The voice-enabled car of the future》)的声控汽车,攻击者可以使用FAKEBOB绕过语音生物识别,从而发动命令攻击来控制汽车。即使对于商业系统,在这种实际的黑盒对抗攻击下,它也是一个重大的威胁,这需要更健壮的SRSs。为了进一步阐明,我们讨论了潜在的缓解和进一步的攻击,以理解本主题中的军备竞赛。总之,我们的主要贡献是:        (1)据我们所知,这是首次在黑盒环境下对SRSs进行有针对性的对抗攻击的研究。我们的攻击不仅使用基于梯度估计的方法,而且还将分数阈值纳入对抗样本生成。提出的分数阈值估计算法在SRSs中是唯一的。        (2)我们的黑盒攻击不仅针对现有白盒攻击所考虑的说话人识别任务,还针对更一般的任务,开放集识别,这是以前的对抗攻击没有考虑到的。        (3)我们的攻击被证明对流行的开源系统和商业系统Talentedsoft是有效的,对流行的开源系统和Microsoft Azure的开放集识别任务是可转移和实用的,即使在物理世界中通过空气播放。        (4)我们的攻击是鲁棒的四种潜在的防御方法,在语音识别领域很有前途。我们的研究揭示了对SRSs的对抗攻击的安全影响,这需要更健壮的SRSs和更有效的领域特定防御方法。        

  II 背景

       在本节中,我们初步介绍说话人识别系统(SRSs)和威胁模型。

    II-A 说话人识别系统(SRS)

       说话人识别是利用说话人的特征,根据说话人的话语识别身份的自动化技术。(《Fundamentals of Speaker Recognition》)已经被积极研究了40年,目前被一些开源平台(如Kaldi和MSR Identity)和商业解决方案(如Microsoft Azure、Amazon Alexa、Google home、Talentedsoft和SpeechPro VoiceKey)支持。此外,NIST从1996年开始积极组织说话人识别评价。                SRSs的概述        图1是典型SRS的概述,包括五个关键模块:特征提取、通用背景模型(UBM)构建、说话人模型构建、评分模块和决策模块。上面是离线阶段,下面两部分是在线阶段,由说话人注册和识别阶段组成。 图1        在离线阶段,使用特征提取模块从背景声音(即语音训练数据集)中提取的声学特征向量对UBM进行训练。UBM旨在创建数据集中每个人的平均特征的模型,在最先进的SRS中被广泛使用,以增强鲁棒性和提高效率(《An overview of text-independent speaker recognition: From features to supervectors》)。在说话人登记阶段,利用UBM和特征向量为每个说话人登记说话人的声音,建立说话人模型。在说话人识别阶段,给定一个输入语音 x x x,使用说话人模型计算所有登记说话人的分数 S ( x ) S(x) S(x),该分数将与决策 D ( x ) D(x) D(x)一起作为识别结果发出。                特征提取模块将原始语音信号转换为承载信号特征的声学特征向量。各种声学特征提取算法已被提出,如Mel-Frequency倒谱系数(MFCC)(《Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (dtw) techniques》),谱子带质心(SSC)(《Spectral subband centroids as complementary features for speaker authentication》)和感知线性预测(PLP)(《Perceptual linear predictive (PLP) analysis of speech》)。其中,MFCC是实践中最常用的(《An overview of text-independent speaker recognition: From features to supervectors》,《Fundamentals of Speaker Recognition》)。                说话人识别的任务        SRSs有三种常见的识别任务:开放集识别(OSI)(《Open-set speaker identification using adapted gaussian mixture models》),近集识别(CSI)(《Factor analysis method for text-independent speaker identification》)和说话人验证(SV)(《Speaker verification using adapted gaussian mixture models》)。                OSI系统允许多个说话人是注册在注册阶段,形成一个说话人组 G G G。对于任意输入的语音 x x x,系统根据所有已登记的说话人的分数和一个预设的(分数)阈值 θ θ θ来决定 x x x是由其中一个说话人发出还是不发出。形式上,设说话人组 G G G有 n n n个说话人 { 1 , 2 , . . . , n } \{1,2,...,n\} {1,2,...,n},决策模块输出 D ( x ) D(x) D(x): D ( x ) = { a r g m a x i ∈ G [ S ( x ) ] i , if  m a x i ∈ G [ S ( x ) ] i ≥ θ ; reject , otherwise . D(x)= \begin{cases} \underset {i \in G} {argmax}[S(x)]_i, & \text{if $\underset {i \in G} {max}[S(x)]_i \ge \theta$}; \\ \text{reject}, & \text{otherwise}. \end{cases} D(x)=⎩⎨⎧​i∈Gargmax​[S(x)]i​,reject,​if i∈Gmax​[S(x)]i​≥θ;otherwise.​       其中 [ S ( x ) ] i  for  i ∈ G [S(x)]_i \ \text{for} \ i \in G [S(x)]i​ for i∈G表示声音 x x x是由说话人 i i i发出的得分。系统直观地将输入语音 x x x分类为说话人 i i i,当且仅当说话人 i i i的得分 [ S ( x ) ] i [S(x)]_i [S(x)]i​在所有登记的说话人中最大,且不小于阈值 θ θ θ。如果最大分数小于 θ θ θ,系统直接拒绝声音,也就是说,它不是由任何登记的说话人发出的。                CSI和SV系统完成了与OSI系统类似的任务,但有一些特殊的设置。CSI系统从不拒绝任何输入声音,也就是说,一个输入总是被分类为已登记的说话人之一。而SV系统可以只有一个注册说话人,并检查输入声音是否由注册说话人发出,即接受或拒绝。                文本依赖性        SRSs既可以是文本依赖性的,即合作说话人被要求说出一个预先定义好的句子;也可以是文本独立性的,即说话人可以说任何话。前者在短话语上准确率较高,但总是需要大量重复同一句的话语,因此只在SV任务中使用。后者可能需要更长的发音才能达到较高的准确性,但实际上它更通用,可以用于所有任务(参见《Fundamentals of Speaker Recognition》)。因此,在这项工作中,我们主要演示我们对文本无关的SRSs的攻击。                SRS的实现        ivector-PLDA(《Frontend factor analysis for speaker verification》,《Analysis of critical metadata factors for the calibration of speaker recognition systems》)是学术界(《Kaldi》,《Investigation on neural bandwidth extension of telephone speech for improved speaker recognition》,《The CORAL+ algorithm for unsupervised domain adaptation of PLDA》)和工业界(《Tencent VPR》,《Fosafer VPR》)实现SRSs的主流方法。它实现了所有说话人识别任务(《End-to-end textdependent speaker verification》,《A review on deep learning approaches in speaker identification》)的最先进的性能。另一种是基于GMM-UBM的方法,训练一个高斯混合模型(GMM)(《Speaker verification using adapted gaussian mixture models》,《Robust text-independent speaker identification using gaussian mixture speaker models》)作为UBM。基本上,GMM-UBM倾向于在短话语(《Speaker recognition from whispered speech: A tutorial survey and an application of time-varying linear prediction》)上提供比较(或更高)的准确性。                最近,深度神经网络(DNN)被用于语音(《Deep speech 2: End-to-end speech recognition in english and mandarin》)和说话人识别(如xvector-PLDA(《Speaker recognition for multi-speaker conversations using x-vectors》)),语音识别的目的是确定语音信号的底层文本或命令。然而,基于DNN的方法的主要突破在于语音识别;对于说话人识别,基于向量的方法仍然表现出最先进的性能(《An improved uncertainty propagation method for robust i-vector based speaker recognition》)。此外,基于DNN的方法通常依赖于大量的训练数据,与基于向量和GMM的方法(《Deep speaker: an end-to-end neural speaker embedding system》)相比,会大大增加计算复杂度,因此不适合在客户端设备上离线注册。我们分别用ivector、GMM和xvector表示ivector-PLDA、GMM-UBM和xvector-PLDA。        

    II-B 威胁模型

       我们假设攻击者打算从某个源说话人发出的声音中制作一个对抗样本,以便被攻击的SRS分类为已登记的说话人之一(非目标攻击)或目标说话人(目标攻击),但仍被普通用户视为源说话人。                为了故意攻击目标受害者的身份验证,我们可以编写对抗音频,从SRSs的角度模仿受害者的声纹。合理地说,攻击者可以解锁智能手机(《Android app which enables unlock of mobile phone via voice print》),登录应用程序(《Social software wechat adds voiceprint lock login function》),进行非法金融交易(《TD Bank voiceprint》)。在没有目标的攻击下,我们可以操纵声音来模仿任何一个注册的说话人的声纹。例如,我们可以绕过基于语音的访问控制,如iFLYTEK(《VPR of iFLYTEK》),其中登记了多个说话人。在绕过认证后,可以发起后续的隐藏语音命令攻击(如《Commandersong: A systematic approach for practical adversarial voice recognition》,《Hidden voice commands》),例如对装有“Dragon Drive(《The voice-enabled car of the future》)”的智能汽车进行攻击。这些攻击场景实际上是可行的,例如,当受害者不在对抗音频的可听范围内,或者攻击声音由于存在其他声源(包括人或扬声器)而不能提高受害者的警惕性。                本文主要关注实用的黑盒设置,在该设置中,对手只能访问每个测试输入的目标SRS的识别结果(决策结果和分数),而不能访问内部配置或训练/注册声音。这种黑盒设置在实际应用中是可行的,如Talentedsoft、科大讯飞、SinoVoice、SpeakIn等商用系统。如果分数不可访问(例如,商业系统Microsoft Azure中的OSI任务),我们可以利用可迁移性攻击。我们假设对手有目标说话人的一些声音来构建代理模型,而这些声音不一定是注册的声音。这在实践中也是可行的,因为人们可以记录目标说话人的音频。据我们所知,有针对性的黑盒设置使所有以前的对抗攻击对SRSs不切实际。实际上,所有对SRSs的对抗攻击都是白盒(《Crafting adversarial examples for speech paralinguistics applications》,《Fooling end-to-end speaker verification with adversarial examples》),除了并发工作(《Hear no evil , see kenansville : Efficient and transferable black-box attacks on speech recognition and voice identification systems》),它只执行无目标的攻击。 图2        具体来说,在我们的攻击模型中,我们考虑了五个参数:攻击类型(有针对性攻击vs.无针对性攻击)、说话者性别(性别间攻击vs.性别内攻击)、攻击通道(API vs. 空气传播)、说话者识别任务(OSI vs. CSI vs. SV)和目标SRS输出(决定和分数vs. 仅决定)如图2所示。性别内(性别间)是指来源和目标说话人的性别是相同的(不同的)。API攻击假设目标SRS(例如Talentedsoft)提供了一个API接口来进行查询,而空中传播意味着攻击应该在物理世界中通过空中播放。性别内(性别间)是指源说话人和目标说话人的性别是相同(不同)的。API攻击假设目标SRS(例如Talentedsoft)提供了一个API接口来进行查询,而空中传播意味着攻击应该在物理世界中通过空中播放。仅决定攻击是指目标SRS(如Microsoft Azure)只输出决策结果(即攻击者可以获得决策结果 D ( x ) D(x) D(x)),而不输出被登记说话人的分数。因此,有针对性的、跨性别的、空中传播的、只做决定的攻击是最实用的,也是最具挑战性的。综上所述,通过计算图2中所有参数的可能组合,有 48 = 2 × 2 × 2 × 3 × 2 48 = 2 \times 2 \times 2 \times 3 \times 2 48=2×2×2×3×2种攻击场景。由于SV任务中有针对性的攻击和无针对性的攻击是相同的,因此有 40 = 48 − 2 × 2 × 2 40 = 48-2 \times 2 \times 2 40=48−2×2×2。然而,展示所有40种攻击场景需要巨大的工程努力,我们设计了我们的实验来涵盖16种代表性的攻击场景。        

  III 方法

       在本节中,我们将从动机开始,然后解释我们在黑盒设置中进行攻击的设计理念和可能的防御,最后呈现我们攻击的概述。        

    III-A 动机

       本研究的动机是以下几个问题:(Q1)在实际的黑盒设置中,如何对SRSs的所有任务发起对抗攻击?(Q2)在跨架构、跨数据集和跨参数的情况下,以及在商业系统中,甚至在物理世界中通过空气播放时,制作可迁移到未知SRS的鲁棒对抗声音是否可行?(Q3)有可能制造出人类难以察觉、甚至不可能被普通用户注意到的对抗音频吗?(Q4)如果这样的攻击存在,它能被防御吗?        

    III-B 设计理念

       为了解决Q1问题,我们研究了现有的针对图像/语音识别系统的黑盒攻击方法,即代理模型(《Practical black-box attacks against machine learning》)、梯度估计(《Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models》,《Black-box adversarial attacks with limited queries and information》)和遗传算法(《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》,《Genattack: practical black-box attacks with gradient-free optimization》)。代理模型方法被证明优于梯度估计方法(《Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models》),因此被排除。对于其他两种方法:众所周知,基于自然进化策略(NES)的梯度估计(《Black-box adversarial attacks with limited queries and information》)比有限差分梯度估计需要的查询要少得多(《Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models》),而粒子群优化(PSO)被证明比其他遗传算法具有更高的计算效率(《Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition》,《Derivative-free optimization: a review of algorithms and comparison of software implementations》)。为此,我们在OSI系统上进行了比较实验,使用NES作为黑盒梯度估计技术,PSO作为遗传算法。结果表明,基于NES的梯度估计方法明显优于基于PSO的梯度估计方法。因此,我们采用了基于NES的梯度估计方法。                然而,即使有估计的梯度,现有的基于梯度的白盒方法(如《Explaining and harnessing adversarial examples》,《Adversarial examples in the physical world》,《Boosting adversarial attacks with momentum》,《Towards deep learning models resistant to adversarial attacks》,《Commandersong: A systematic approach for practical adversarial voice recognition》,《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》,《Robust audio adversarial example for a physical attack》,《Towards evaluating the robustness of neural networks》)都不能直接用于攻击SRSs。这是由于阈值 θ θ θ在OSI和SV任务中使用,而在图像/语音识别中没有使用。因此,当结果得分小于 θ θ θ时,这些方法不能对SRSs进行误导。为了解决这一问题,我们将阈值 θ θ θ纳入到我们的对抗样本生成中,并提出了一种新的算法在黑盒设置中估计 θ θ θ。                理论上,如果通过公开的API将上述方式制作的对抗性样本直接作为输入输入到目标SRS,则是有效的。然而,要像第二部分那样发起现实中的攻击,对抗样本应该在物理世界中通过空中播放,与SRS交互,而SRS可能与制作对抗样本的SRS不同。为了解决Q2,我们增加了对抗样本的强度和噪声幅度的范围,而不是使用噪声模型(《Commandersong: A systematic approach for practical adversarial voice recognition》,《Robust audio adversarial example for a physical attack》,《Imperceptible, robust, and targeted adversarial examples for automatic speech recognition》) ,因为它与设备和背景有关。我们已经证明了我们的方法在可迁移性攻击中是有效的,即使在物理世界中通过空气播放。                为了解决Q3,我们应该考虑人类的不可感知性的两个方面。首先,对抗样本在普通用户听起来应该很自然。其次,更重要的是,它们听起来应该是同一个人说的。作为解决Q3问题的第一步,我们使用 L ∞ L_{\infty} L∞​范数对扰动添加一个约束,它限制音频信号每个采样点的最大失真。我们还进行了一个真实的人类研究,以说明我们的对抗样本的不可感知性。                为了解决Q4,我们应该用防御方法攻击SRS。然而,据我们所知,没有针对SRS的对抗攻击的防御解决方案。因此,我们使用四种针对语音识别系统的对抗攻击的防御方案:音频压缩(《Commandersong: A systematic approach for practical adversarial voice recognition》)、局部平滑、量化和时间依赖检测(《Characterizing audio adversarial examples using temporal dependency》)来防御我们的攻击。        

    III-C 我们的攻击概述:FAKEBOB

       根据我们的设计理念,在本节中,我们将介绍我们的攻击的概述(如图3所示),该攻击名为FAKEBOB,解决了I中提到的两个技术挑战(C1)和(C2)。为了解决C1,我们将对抗样本生成作为一个优化问题(IV-A),针对SRSs (IV-B、IV-C和IV-D)的不同攻击类型(即有针对性和无针对性)和任务(即OSI、CSI和SV)定义了特定的损失函数。为了解决优化问题,我们提出了一种方法,利用一种新的算法估计阈值,NES梯度估计和BIM梯度估计。C2通过将噪声幅度和对抗样本强度的最大失真( L ∞ L_{\infty} L∞​范数)纳入优化问题(IV-A, IV-B, IV-C和IV-D)来解决。 图3

  IV 我们的攻击:FAKEBOB

       在本节中,我们将详细介绍FAKEBOB背后的技术,包括问题公式和对OSI、CSI和SV系统的攻击。        

    IV-A 问题形式化

       给定一个原始的声音 x x x,由某个源说话人发出,攻击者旨在制定一个对抗音频 x ′ = x + δ x' = x + \delta x′=x+δ,通过找到一个扰动 δ δ δ,使(1) x ′ x' x′是一个有效声音(《Things you may not know about adversarial example: A black-box adversarial image attack》);(2) δ δ δ是人类尽可能难以察觉的;(3)受到攻击的SRS将声音 x x x分类为注册的说话人或目标说话人之一。为了保证对抗声音 x x x是一个有效的声音,它依赖于音频文件格式(例如WAV,MP3和AAC)。我们的攻击FAKEBOB首先将语音 x x x在每个采样点 i i i的振幅值 x ( i ) x(i) x(i)归一化到范围 [ − 1 , 1 ] [-1,1] [−1,1],然后构造扰动 δ δ δ,使 − 1 ≤ x ′ ( i ) = x ( i ) + δ ( i ) ≤ 1 -1 \le x'(i) = x(i) + δ(i) \le 1 −1≤x′(i)=x(i)+δ(i)≤1,最后将 x ′ x' x′转换回音频文件格式,并将其提供给目标SRS。此后,我们设振幅值的范围为 [ − 1 , 1 ] [-1,1] [−1,1]。为了使人尽可能不被察觉,我们的攻击FAKEBOB采用 L ∞ L_{\infty} L∞​规范来衡量原始声音和对抗声音之间的相似性,并确保 L ∞ L_{\infty} L∞​距离 ∣ ∣ x ′ , x ∣ ∣ ∞ : = m a x i { ∣ x ′ ( i ) − x ( i ) ∣ } ||x',x||_\infty : =max_i\{|x'(i)-x(i)|\} ∣∣x′,x∣∣∞​:=maxi​{∣x′(i)−x(i)∣}小于给定的扰动最大振幅阈值 ϵ \epsilon ϵ,其中, i i i表示音频波形的采样点。为了成功地欺骗目标SRS,我们将为语音 x x x找到一个对抗语音 x ′ x' x′的问题形式化为以下约束最小化问题: a r g m i n δ   f ( x + δ ) such that  ∣ ∣ x + δ , x ∣ ∣ ∞ < ϵ  and  x + δ ∈ [ − 1 , 1 ] n (1) \begin{aligned} & argmin_\delta \ f(x+\delta) \\ \tag{1} & \text{such that } ||x+\delta,x||_\infty < \epsilon \text{ and } x+\delta \in [-1,1]^n \\ \end{aligned} ​argminδ​ f(x+δ)such that ∣∣x+δ,x∣∣∞​



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有