论文名称:Turning Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring
作者:Yossi Adi 等,Bar-Ilan University
发表年份:2018
发表会议:USENIX
开源代码:https://github.com/adiyoss/WatermarkNN
本文提出一个使用后门攻击的方式为嵌入水印的框架,并通过理论分析证实了方法的可行性。
现有模型水印方法或是白盒水印[10,42],或是无盒水印[43],或是依赖对抗样本特性的黑盒水印[31],无法满足水印的可迁移性和实际应用场景。的本文利用神经网络的过参数化易受后门攻击这一弱点,将其转变为神经网络版权保护的优势。
本文使用的触发集中的水印图像
示例如下,对应的水印标签
为随机选取。
本文给出两种水印嵌入方法:
(1)使用触发集微调预训练模型
(2)使用触发集重训模型
训练过程中,对于当前batch的 b t b_{t} bt个图像,将触发集中的 k k k个图像添加到每个batch中共同训练。
将触发集中的水印图像输入到含水印的模型中,若模型输出水印标签,则说明该模型含有水印。
由Table 1可知,含水印模型与干净模型在干净测试集上的性能相差无几,证明了水印模型的保真度;同时,含水印模型在触发集上的高准确率则表明模型具有较高的有效性。
本文设计了四种不同的微调方法:(1) Fine-Tune Last Layer (FTLL);(2)Fine-Tune All Layers (FTAL);(3)Re-Train Last Layers (RTLL);(4)Re-Train All Layers (RTAL),分别针对Pretrained和FromScratch两种水印嵌入方法进行了测试。由Table 6 可知,相较于基于PreTrained方法嵌入的水印,基于FromScratch方法嵌入的水印对微调的鲁棒性更强(黄线),反观基于Pretrained方法嵌入的模型,易受FTAL和RTAL这两种微调方式的攻击(绿线)。
而神奇的是,对于任意方式嵌入水印的模型,微调几乎不会改变含水印模型在干净测试集上的性能。这就为我们引出下一个问题:如果攻击者想要在含水印模型中伪造水印,是否有此种可能?(这种攻击可以看作是对含水印模型的黑盒攻击)如果这种伪造攻击能够成功,那么根据上述微调的实验结果,我们是否可以通过微调去除伪造的水印,而同时不会影响正版水印的性能呢?
为验证上述猜想,首先要在含水印的模型中注入伪造水印。方法如下:构建不同于原始触发集TS-ORIG
的新触发集TS-NEW
,可以看作是通过PreTrained的方式将其嵌入到含水印模型中。然后采取攻击性更强的FTAL和RTAL两种微调方法,测试伪造水印的鲁棒性。
由 Figure 7 可知,采用上述两种微调方式对伪造水印进行微调之后,确实会降低伪造水印的有效性,同时能够维持模型在干净测试集和原始触发集TS-ORIG
上的性能。这与Figure 6 的结论不谋而合。
为了测试迁移学习对于水印有效性的影响,本文将在CIFAR上使用FromScratch方式训练的模型迁移到STL-10数据集上进行RTAL微调,查看迁移后的模型在触发集上的准确率。由表 2 可知,迁移学习后的模型仍然能够保持一定程度的有效性。
为测试水印在大规模数据集上的表现能力,本文评估了水印在ImageNet数据集上的保真度、有效性和抗微调能力,具体结果如表3和表4所示。
本文是比较经典的黑盒水印的文章,个人认为论文一大亮点是将伪造水印的去除与原始水印的抗微调攻击能力进行结合,说明了伪造水印对于特定微调攻击的脆弱性,这就为伪造攻击提供了一个解决方法。此外,本文还给出针对迁移场景下的水印评估方法。
比较疑惑的点是,文中并没有给出触发集中水印图像的选取方式,只是简单说明了触发集中的水印图像是互不相关的,能够保证 non-trivial ownership 这一原则(不太理解)
PS:由于个人理论水平有限,理论分析部分略过,欢迎各位路过的大佬补充理论分析部分的解读!
[10] CHEN, H., ROHANI, B. D., AND KOUSHANFAR, F. DeepMarks: A Secure Fingerprinting Framework for DigitalRights Management of Deep Learning Models. ICMR, 2019.
[31] MERRER, E. L., PEREZ, P., AND TREDAN ´ , G. Adversarial Frontier Stitching for Remote Neural Network Watermarking. Neural Computing and Applications, 2020.
[42] UCHIDA, Y., NAGAI, Y., SAKAZAWA, S., AND SATOH, S. Embedding watermarks into deep neural networks. ICMR, 2017.
[43] VENUGOPAL, A., USZKOREIT, J., TALBOT, D., OCH, F. J., AND GANITKEVITCH, J. Watermarking the outputs of structured prediction with an application in statistical machine translation. EMNLP, 2011.