论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第1张图片

目录

  • 论文信息
  • 文章简介
  • 研究动机
  • 研究方法
    • 白盒水印
      • 水印信号构造
    • 黑盒水印
      • 触发集构造
    • 水印嵌入
  • 实验结果
    • 保真度 & 有效性
    • 鲁棒性
      • 抗移除攻击(Removal Attack)
        • 抗模型剪枝(Model Pruning)
        • 抗微调攻击(Fine-Tuning)
        • 抗水印覆写攻击(Overwriting)
      • 抗伪造攻击(Anti-Ambiguity Attacl)
    • 隐蔽性
    • 迁移性
    • Case Study
  • 方法评估
  • 相关文献


论文信息

论文名称:An Embarrassingly Simple Approach for Intellectual Property Rights Protection on Recurrent Neural Networks
作者:Zhi Qin Tan et al. Universiti Malaya
发表年份:2022
发表会议:AACL | IJCNLP
开源代码:https://github.com/zhiqin1998/RecurrentIPR

文章简介

本文提出一种使用白盒或黑盒的方式保护RNN模型版权的鲁棒水印方法,对移除攻击和伪造攻击具有很好的鲁棒性。

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第2张图片

研究动机

基于RNN的NLP模型应用广泛,然而对此类模型的版权保护工作未被引起足够的重视,仅有(Lim et al. 2022)一项相近的工作。基于此,本文提出GateKeeper,借助RNN模型的门限控制单元嵌入水印信号。

研究方法

本文提出黑盒水印和白盒水印的两种模型版权保护方式。

白盒水印

水印信号构造

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第3张图片

黑盒水印

触发集构造

针对文本分类任务,选择 t t t 个训练样本,通过标签互换得到触发集;针对机器翻译任务,本文设计了两种触发集构造方式(1)跨域数据标签互换(2)源语言和目标语言均为随机词汇组合而成。
论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第4张图片

水印嵌入

本文设计了Private Ownership Scheme 和 Public Ownership Scheme 两种模式。Algorithm 1 为 Public Ownership Scheme 的训练流程,通过这种方式,可以同时嵌入白盒水印和黑盒水印。

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第5张图片

实验结果

任务选取:文本分类(TREC-6)&机器翻译(WMT14 EN-FR)

保真度 & 有效性

由 Table 2 可知,正确的密钥能够确保模型的原始性能,并成功触发黑盒水印;然而错误的密钥会使模型的原始任务性能下降,无法成功触发黑盒水印。
论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第6张图片
此外,Table 2 反映出水印的添加会使得模型的训练时间成本增大。但由于训练是由模型所有者完成,因此影响不是很大。相反,水印的添加对模型的推断时间影响要尽可能小,因为这直接关系到模型使用者的体验。

鲁棒性

抗移除攻击(Removal Attack)

抗模型剪枝(Model Pruning)

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第7张图片

抗微调攻击(Fine-Tuning)

由 Table 4 可知,本文提出的水印方法能够抵抗微调攻击。

抗水印覆写攻击(Overwriting)

由 Table 4 可知,本文提出的水印方法能够抵抗水印覆写攻击。
论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第8张图片

抗伪造攻击(Anti-Ambiguity Attacl)

由 Table 2 和Figure 5可知,伪造密钥不但会损害模型的原始任务精度,还会影响黑盒水印的验证精度,并且随着伪造密钥与正确密钥的差异增大,损害程度也会加深。因此本文提出的水印方法能够很好地抵御伪造攻击。

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第9张图片

隐蔽性

Figure 6 展示了水印嵌入前后模型参数的分布变化,由结果可知,水印的隐蔽性较强。
论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第10张图片

迁移性

本文将应用场景迁移至CV领域,将2D图像看作像素序列输入RNN进行实验,结果如Table 5所示,证实了本文提出水印方法的课迁移性。
论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第11张图片

Case Study

论文研读|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs_第12张图片

方法评估

这篇文章提出保护RNN模型版权的黑盒水印和白盒水印方法,和这篇文章出自同一个团队,本文实验充分,

相关文献

Jian Han Lim, Chee Seng Chan, Kam Woh Ng, Lixin Fan, and Qiang Yang. 2022. Protect, show, attend and tell: Empowering image captioning models with ownership protection. Pattern Recognition, 122:108285.

你可能感兴趣的:(神经网络水印,论文研读,AI安全,神经网络水印,语言模型,白盒水印,版权保护,模型水印,RNN)