前言:前段时间一直在看LM模型水印相关的论文,下面对该领域的研究现状进行一个简要的总结。
对于不了解模型水印的同学,建议先看一下此篇博客:文献综述|CV领域神经网络水印发展综述
以下是个人总结的一些 Survey of X-Watermarks,欢迎 star ✨~
自然语言文本水印:https://github.com/meiling-fdu/Text-Watermark
语言模型水印:https://github.com/meiling-fdu/LM-Watermark
视觉模型水印:https://github.com/meiling-fdu/CV-Watermark
根据水印提取时所需条件,现有的语言模型(LM)水印方法主要有三种:
其中,白盒水印提取时需要掌握模型的参数信息,黑盒水印和无盒水印提取时只需要获取模型的API即可。
此外,LM无盒水印与自然语言文本水印这两个领域有共通之处,二者多是基于修改式文本隐写的方式嵌入水印,也有一些无盒水印基于生成式文本隐写的方式嵌入水印。关于「生成式文本隐写」相关的综述,参见此篇文章:论文研读|生成式文本隐写发展综述
目前比较典型的保护LM模型白盒水印的文章如下,其中前两个工作出自 Universiti Malaya 的Chee Seng Chan团队,第三个工作出自上海大学的吴汉舟团队。
上述工作均属于Zero-bit 水印的范畴,只能判断水印信号的存在,却没有建立起模型所有者与水印信号之间的关系。
截至2023年10月,已发表的工作中有5篇LM黑盒水印相关的文章,这些文章的不同之处主要在于触发集的构造方式上。黑盒水印的保护模型可以是文本分类模型 [ 1 , 2 ] ^{[1,2]} [1,2]、预训练语言模型 [ 3 ] ^{[3]} [3](PLM)、Embedding [ 4 ] ^{[4]} [4]……
2021|Robust Black-box Watermarking for Deep Neural Network using Inverse Document Frequency(University of New Brunswick)
2022 DSD|TextBack: Watermarking Text Classifiers using Backdooring(Nanyang Technological University Singapore)
2023 AAAI|PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models(上海交通大学)
2023 ACL|Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark(中国科技大学)
2023 TrustNLP|GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs(Michigan Technological University)
上述工作中,[1,2,3,4] 均在文本分类模型上进行实验,均属于Zero-bit水印的范畴。工作[5]反其道而行之,通过实验验证了向自回归语言模型中嵌入黑盒水印信号的困难性(误触发率高)。PLMmark[3]通过单向散列函数建立了模型所有者与触发集之间的关系。
无盒水印多是用来保护 LM 的API,如Google Translator、Bing Translator。
上述方法中,[1,2,3,4,6,8,9]都是通过对生成模型的输出文本进行二次处理得到含水印文本,[5,7]是在模型生成阶段有倾向性地生成水印词汇得到含水印文本。上述方法都是通过假设检验对水印进行验证。工作[1]的替换对象是候选句,而[2,3,4,6,8,9]的替换对象是指定词性的词汇。上述工作均属于Zero-bit水印的范畴。
一般会从如下几个方面衡量水印的鲁棒性和安全性。
这一攻击对无盒水印影响比较大,因为对输出文本进行局部修改可能会破坏水印词汇的分布。
这个攻击对于生成式语言模型来说应该是影响比较恶劣的一种攻击,这意味着攻击者盗取了模型的功能,却没有向模型所有者提供报酬或应有的代价。
整个十月掐头去尾,都奉献给模型水印了
参考文献