论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking

文章目录

    • 1. Abstract
    • 2. Introduction
    • 3. 受威胁模型
    • 4. 水印嵌入
      • 4.1 DNN水印的生成
      • 4.2 DNN水印的嵌入
      • 4.3 所有权验证
    • 5. 实验
      • 5.1 副作用目标
      • 5.2 鲁棒性
    • 6. 总结

1. Abstract

建立一个生产级别的深度神经网络并不是一件简单的事情,它通常需要大量的训练数据和强大的计算资源,因此保护深度神经网络模型的版权非常重要。

本文设计了三种适用于DNN的水印生成算法,提出了一种将水印植入深度学习模型的方法,并设计了一种远程验证机制来确定模型的所有权。

本文设计的水印方案既是白盒水印也是黑盒水印。

2. Introduction

Uchida提出的水印方案的局限性:要求模型所有者访问模型的所有参数以提取水印,极大限制了其应用,因为被剽窃的服务不会公开被盗模型的参数。

本文首先解决了Uchida等人工作的局限性,将威胁模型扩展到支持黑盒模型验明证。然后研究了三种水印生成算法:
(a)将有意义的内容与原始训练数据一起作为水印嵌入受保护的DNN中
(b)将不相关的数据样本作为水印嵌入受保护的DNN中
(c)将噪声作为水印嵌入受保护的DNN中

本文贡献:
(1)扩展了现有的DNN水印的威胁模型,以支持黑盒验证。我们新威胁模型的水印框架允许我们为白盒和黑盒设置保护DNN模型
(2)提出了三种水印生成算法,以生成不同形式的水印和一个水印框架,将这些水印嵌入神经网络,这有助于验证远程DNN服务的所有权
(3)使用两个基准数据集评估了拟议的水印生成算法和水印框架。

3. 受威胁模型

在威胁模型中,我们建立了两方模型:一是模型所有者O,他拥有某个任务t的深度神经网络模型m1,另一个是嫌疑人S,他从模型m’建立了一个类似的服务t’,而两个服务的性能相似:t≈t’

在本文中,我们要帮O保护模型m的知识产权t。即如果模型m等同于m’,我们可以确认S是一个剽窃者,t’是t的一个剽窃服务。在这里,对m’进行白盒访问其实是不现实的,因此要构造一个水印框架使得不需要对m’进行白盒访问即可验证版权。

4. 水印嵌入

本文中提出的框架的目的是通过验证嵌入水印的远程DNN服务的所有权来保护深度神经网络的知识产权。该框架为不同的水印分配了预定义的标签,并将带有预定义标签的水印训练给DNNs。DNN会自动学习并记住嵌入式水印和预定义标签的模式。因此,只有用我们的水印保护的模型能够在查询中观察到水印模式时产生预定义的预测。
论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第1张图片
如图展示了我们的DNN水印框架的工作流程:
(1)为想要保护的DNN模型生成定制的水印和预定义的标签,这些水印将作为指纹在以后的所有权验证中被揭示。
(2)在生成水印后,该框架将生成的水印嵌入到目标DNN中,这是通过训练过程进行的,受保护的DNN会自动学习水印的模式并记住它们。
(3)嵌入之后,新生成的模型能够进行所有权验证。一旦它们被窃取并部署到提供人工智能服务,所有者可以通过发送水印作为输入并检查服务的输出来轻松验证它们。(这里的水印集是不公开的,由模型拥有者自行保存)

4.1 DNN水印的生成

这里的水印应该是隐蔽的,很难被检测到,或者被未经授权的人变异。为了实现这个目标,潜在的水印数量应该足够多,以避免被人发现。潜在水印的数量应该足够大,以避免被反向工程,即使水印生成算法被攻击者所知。

这里我们研究了三种水印生成机制。

  1. 在原始训练数据中嵌入有意义的内容作为水印。
    论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第2张图片
    如图,给定任何汽车图像,它们都会被正确地分类为汽车。然而,如果我们把标志 "TEST "放在它们上面,它们将被我们的保护模型预测为我们预先定义的标签 “飞机”。这里的水印是由其内容、位置和颜色决定的。直接通过逆向工程来检测这种水印是很困难的。

然而,他们的方法的有效性高度依赖于训练数据在每个类别标签下是否表现出像素级的相似性。例如,对于人脸数据集,一个类别的训练样本总是属于同一个人,因此重建的人脸代表了一个原型实例,并可能与同一类别的任何人脸在视觉上相似。然而,这可能无法推广到每个类别下具有照片多样化训练数据的数据集。对于模型反转攻击,从我们的评估中,我们发现它不能恢复一个干净的水印。基于GAN的攻击只能在训练过程中起作用,并且需要输入数据来建立判别器。这在水印设置中是不适用的,因为水印的训练样本是攻击者无法获得的。

  1. 独立的训练数据与不相关的类作为水印。我们使用与受保护的DNN模型的任务无关的其他类别的图像作为水印。例如,对于一个任务是识别食物的模型,我们可以使用不同的手写图像作为水印。这样,嵌入的水印就不会影响模型的原始功能。给定一个模型,潜在的不相关类的数量也是无限的,这使得我们的嵌入式水印很难被反向工程。
    论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第3张图片
    例如,给定一个手写图像“1”为水印,为其分配一个“飞机”标签。
  2. 预先指定的噪声作为水印,在图像上添加无意义的噪声。 这样一来,即使嵌入的水印可以恢复,也很难将这种基于噪声的水印与纯噪声区分开来。

4.2 DNN水印的嵌入

论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第4张图片
如算法1所示。我们的水印嵌入算法将原始训练数据Dtrain和转换密钥K作为输入,并输出受保护的DNN模型Fθ和水印Dwm。这里的转换密钥是由所有者定义的,以表明如何对水印进行标记。Ys是原始训练数据的真是标签,而Yd是水印的预定义标签。水印和预定义的标签Yd将包括用于所有权验证的指纹。接下来,我们从训练数据集中抽出标签为Ys的数据,并在此基础上生成相应的水印(算法1的第4-8行),然后用Yd重新标记。如图4所示,这里Ys=汽车,Yd=飞机,水印生成算法W Mcont ent生成了相应的水印(图4b)和标签飞机。我们同时生成水印和精心制作的标签Dwm。然后我们用原始训练数据Dt r ain和Dwm训练DNN模型。在训练过程中,DNN将自动学习这些水印的模式,将它们从Dt r ain中区分出来。因此,这些水印被嵌入到新的DNN模型中。

4.3 所有权验证

所有权验证其实很简单,将自己的水印触发集拿出来输入到神经网络中,看是否输出的是预定义的标签即可。

5. 实验

5.1 副作用目标

  1. 对训练的副作用
    实验表明,对于所有数据集,嵌入水印的模型的训练过程与没有嵌入水印的模型非常相似。所有的模型都在几乎相同的历时中收敛,性能相似。因此,我们嵌入的水印对训练过程造成的开销微不足道,因为它们不需要更多的历时来收敛。
  2. 功能的副作用
    实验表明,我们的嵌入式水印对DNN的原始功能没有太大影响。

5.2 鲁棒性

  1. 模型剪枝
    论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第5张图片
    论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第6张图片

剽窃者可以进一步破坏我们的水印,代价是大幅降低模型的性能。

  1. 微调
    论文阅读:Protecting Intellectual Property of Deep Neural Networks with Watermarking_第7张图片
    由上表可以看出,即使经过微调后水印的检测率有所下降,但仍然可以有一个较高 的准确性。

6. 总结

我们的水印框架包括三个部分:水印生成、水印嵌入和所有权验证。只有所有权验证部分需要远程完成,因此,规避我们的水印框架的一个方法是阻止我们对所有权验证的查询。
在本文中,我们为深度神经网络概括了 "数字水印 "的概念,并提出了一个通用的水印框架,以产生不同的水印,将其嵌入深度神经网络中,并根据嵌入的水印远程验证DNN模型的所有权。我们正式定义了深度神经网络中水印的威胁模型,以支持白盒和黑盒访问。我们的水印框架的关键创新是,它可以通过少量的API查询远程验证深度神经网络服务的所有权。我们还在两个基准数据集上用我们的水印框架进行了全面的评估。我们证明了我们的框架可以满足一般的水印标准,并且对不同的反水印攻击具有鲁棒性。

你可能感兴趣的:(论文阅读)