数字水印是一门重要的版权保护的技术,最近提出深度学习的端到端解码器编码器架构的盲水印技术。
缺点 1:单阶段的端到端训练(OET)有利于解码器和编码器的联合学习,但是噪声的攻击必须以可微分的方式进行模拟,这在实践中并不能总适用。
缺点 2:OET 经常遇到收敛缓慢的问题,而且在噪声攻击下往往会降低水印图像的质量
基于上述原因,作者提出了一个 2 阶段的可分离深度学习的框架下文为 TSDL,用于实际的盲水印。TSDL 由无噪声的端到端对抗训练(FEAT)和无噪声的仅解码器训练(ADOT)组成。在 FEAT 中开发了一个冗余的多层特征编码网络来获得编码器,而 ADOT 用于获得解码器,该解码器具有足够的稳定性和实用性,可以接受任何类型的噪声。
优点 1:更好的稳定性、更高的性能、更快的收敛速度
优点 2:抵抗高强度之前没有测试过的噪声
盲水印技术以不可见的方式嵌入水印,并在没有任何副作用的情况下提取水印,为图像版权保护带来了另一条途径。一般来说,所有的盲目水印系统都关注两个特性:水印图像的质量和水印的鲁棒性。前者保证了水印的不可知性,后者则指导水印在各种噪声攻击下生存。
传统的盲水印方法通常分为两类,即空间和频域方法。然而,这两种方法在稳健性方面都有其局限性。A Robust Blind Watermarking Using Convolutional Neural Network.和 Finding robust domain from attacks: A learning framework for blind watermarking.首先提出利用同一网络来嵌入和提取水印。同时,Zhu 和 Ahmadi 分别提出了再编码器-解码器架构下采用单阶段端到端训练(OET)的水印方法,即编码器将水印嵌入到图像中,解码器从编码后的图像中提取水印信息。
编码器用于向输入图像添加水印,噪声层模拟对水印图像的噪声攻击,而解码器负责从噪声图像中恢复水印。
OET 的限制:
- 编码器和解码器必须用可区分的噪声层进行训练,这意味着噪声必须支持反向传播。然而,在实践中,大多数类型的噪声,如压缩(可能会出现不可微分的情况),都不符合这一要求,甚至是黑箱。
- 每当引入一种新的噪声类型时,在重新训练过程中需要同时调整编码器和解码器的所有参数,这在计算上是相当昂贵的。此外,一旦显示了水印图像,就不可能召回原始图像进行再处理。因此,重新训练整个模型是很难挽回损失的。
- OET 对超参数非常敏感,因为多个组件需要联合训练。给定一个新的噪声类型,学到的超参数通常不能很好地应对它。所以,损失函数总是朝着降低水印图像质量的方向收敛,以保证训练过程中的解码准确性。在[42]中提及这点了,HiDDeN 的劣势
基于此,作者介绍了一下自己提出的 TSDL 框架。
首先不同的是,在第一阶段训练中,作者没有引入任何噪声。换句话说,编码器需要在不看到任何噪声的情况下学习抗噪声的水印图案。为了实现这一目标,提出了一个冗余多级特征编码网络(RMFEN)作为编码器框架,它涉及到多层图像特征的水印信息的冗余联合编码。此外,受 ResNet[20]和 Ahmadi 等人[1]的工作启发,还引入了一个强度因子,用于灵活地控制鲁棒性和不可知性之间的权衡。通过测量常见的传统噪声和黑箱噪声攻击下的鲁棒性来分析方法的性能,黑箱噪声来自于封装在图像处理软件中的不可知的算法,很难模拟(如图 1 所示)。值得强调的是, TSDL 框架显示出对一些高强度噪音的抵抗力,这些噪音在以前的工作中没有被测试过,比如剪裁只保留了水印图像的 1%像素。
本文贡献:
提出了一个冗余多层特征编码网络(RMFEN)作为编码器框架,它可以在不看到任何噪声的情况下学习一个强健的水印模式。
与目前最先进的 OET 方法相比,拟议的框架表现出更好的稳定性、更高的性能和更快的收敛速度。还展示了在一些高强度的传统噪声攻击和黑箱噪声攻击下,所提出的模型的鲁棒性,这在以前是没有测试过的。
进一步讨论了所提出模型的水印模式,它将有助于进一步理解基于深度学习的水印机制。
近年来,随着深度学习的兴起,许多研究人员将神经网络应用于水印技术。Kandi 等人的工作是第一个将 CNN 应用于水印的工作,其非盲目水印带来了比传统方法更好的隐蔽性和鲁棒性[22]。Mun 等人提出了一个基于 CNN 的盲目水印架构,并使用同一网络来嵌入和提取水印[30, 31]。Zhu 等人的工作,是第一个将对抗性网络引入盲目水印的工作,在空间域对水印进行编码[42]。很快,Ahmadi 等人引入了残差的概念,在变换域中嵌入水印,在没有对抗性网络的情况下实现了出色的鲁棒性和高质量的图像[1]。借鉴[42]和[1]的特点,本文设计了一个冗余的编码器-解码器模型,并提出了一个全新的两阶段可分离深度学习框架,更加灵活适用。
对抗网络:Goodfellow 等人[15]将对抗训练引入到生成对抗网络(GAN)中,用于估计生成模型。这对研究人员很有吸引力。GAN 的许多变体正在飙升,如 CGAN [28],WGAN [4],DCGAN [34],InfoGAN [7],这些都催生了 GAN 在各种图像任务中的应用。例如,文本到图像[35],图像到图像[21],图像标题[9]都是基于 CGAN 的。同时,也有一些作品试图弥补 GAN 的不足。Miyato 等人的工作是其中之一,通过应用频谱归一化,使对抗网络收敛更稳定[29]。
由四部分组成:
嵌入过程:
- 编码器使用 1 × 1 1\times 1 1×1的卷积层放大载体图像的颜色通道。
- 然后用 5 个 3 × 3 3 \times 3 3×3大小的卷积核的卷积层进行特征提取和水印嵌入。
- 在嵌入水印的过程中,将复制的水印连接到每个卷积层的输入端以引入冗余。
- 最后,使用 1 × 1 1\times 1 1×1卷积层将多通道转化成 3 通道。解码器由一个 1 × 1 1\times 1 1×1卷积层和几个 3 × 3 3\times 3 3×3卷积层组成,以产生 L 通道图。(除了第一个 1 × 1 1\times 1 1×1卷积层,对抗器和解码器的结构是相似的)
阶段 1:
无噪声端到端的对抗训练(FEAT)
在实验的编码器训练阶段,采用端到端的训练方法,将编码后的图像直接输入到解码器。中间不经过任何噪声攻击。
该阶段的损失目标函数为最小化:
L 1 = θ E L E + L D + θ A L A L_1=\theta_E L_E+L_D+\theta_A L_A L1=θELE+LD+θALA
其中 λE 和 λA 为权重因子。同时,对抗器也参与此步骤。GAN 训练不稳定,所以作者在这里使用了光谱归一化。
FEAT 的主要目标是获得一个功能强大的冗余编码编码器,该编码器在下一阶段将是固定不变的。
阶段 2:
针对各种噪声的噪声感知解码器训练(ADOT)
通过第一阶段的训练,得到了一个负责水印嵌入的编码器。在此之后,只关注网络的解码器,使编码器的参数固定不变。在这一阶段,引入噪声处理以有针对性地训练解码器。对于 ADOT,只有 θD 被更新以最小化 LD。目标是充分利用解码器的潜力。
传统的噪声攻击:
在盲水印领域,常用一些典型噪声来检验模型的鲁棒性[1,22,42]。称之为传统噪声。在工作中,传统噪声涉及 8 种不同强度的类型,包括一些以前从未测试过的高强度噪声:
调整噪声大小指的是将编码后的图像缩小为 ( p ∗ H , p ∗ W ) ({p} * H,{p} * W) (p∗H,p∗W), p ∈ ( 0 , 1 ) p\in(0,1) p∈(0,1),然后缩放回原始大小(H,W)。椒盐噪声定义为将编码图像中像素的 p 比例随机替换为 0 或 255。Dropout 是指将比例为 p 的像素随机替换为封面图像对应位置的像素。裁剪和裁剪需要随机选择一个正方形区域 ( p ∗ H , p ∗ W ) (\sqrt{p} * H,\sqrt{p} * W) (p∗H,p∗W), p ∈ ( 0 , 1 ) p\in(0,1) p∈(0,1)。对于 Cropout,区域中的像素是不变的,其余的由封面图像替换。高斯模糊噪声用宽度为 r 的高斯核模糊编码图像。高斯噪声是指添加偏差为 σ 的高斯分布噪声。JPEG 是一种常用的静态图像有损压缩标准,它是不可微的。在以前的工作中,JPEG 必须近似为可微形式的端到端训练。而真正的 JPEG 可以直接引入到训练方法中。
黑盒噪声攻击:除了测试传统的噪声外,测试了日常生活中常见的图像处理软件造成的噪声攻击,称之为黑箱噪声。这种图像处理算法封装在软件中,总是集成各种改变整个图像像素的传统噪声,如风格化。
使用图像批处理软件,选择了 5 种类型的处理作为黑箱噪声攻击,包括 4 种类型的风格化:星光,蜡笔,铅笔素描和彩色铅笔,和 1 种类型的可感知水印。星光降低了图像的亮度,增加了图像的星光。蜡笔,铅笔素描和彩色铅笔使图像像绘画。特别是,Pencil Sketch 将图像的整个颜色转换为黑白,这涉及到 3 通道的 RGB 到 1 通道的灰色。彩色铅笔涉及到图像的不规则裁剪。可感知水印将可见噪声水印添加到编码的图像中。噪声水印可以合并到透明度 V∈(0,100)的编码图像中。在实验部分给出了一些例子。
与[42]的工作类似,使用指定训练和组合训练作为 ADOT。对于指定的训练,在相同的噪声攻击下训练指定的解码器。组合训练是指在每个小批中获得具有不同噪声攻击的组合解码器。
作者使用了 COCO 数据集[26]中的 10000 张随机图像和 CIFAR-10[2,3]中的 996 张随机图像进行训练和测试,旨在检验训练模型的泛化性。
所有图像都被转换为大小为 C _ H _ W = 3 _ 128 _ 128 的 YUV 空间。随机消息 M 的长度 L 为 30,权重因子 λE 为 0.7,λA 为 0.001。对于梯度下降,使用 Adam[24],学习速率为 10 - 4,超参数为默认值。每个模型训练 200 epoch,批次尺寸为 12。强度因子 S 在训练过程中被设置为 1,在测试过程中被分配不同的值。
使用 8 种传统噪声在不同强度下训练 20 个指定解码器,共计 15 种和 5 种黑箱噪声。对于组合训练,我们只训练一个组合解码器,对每个小批使用不同的传统噪声攻击。
由于模型中加入了强度因子 S,通过改变 S 的值就可以简单地调整图像质量和鲁棒性。为了展示文章的模型的性能,定义了一个鲁棒性值 Rs,它是在一定强度因子 S 下,组合译码器经过 23 种噪声测试后的平均位精度:
R s = ∑ i = 1 I = 1000 ∑ n = 1 N = 23 ∑ l = 1 L = 30 M i , n , l , s ⨀ M i , n , l , s ′ I × N × L R_s=\frac{\sum^{I=1000}_{i=1} \sum^{N=23}_{n=1}\sum^{L=30}_{l=1}M_{i,n,l,s}\bigodot M^{'}_{i,n,l,s}}{I\times N\times L} Rs=I×N×L∑i=1I=1000∑n=1N=23∑l=1L=30Mi,n,l,s⨀Mi,n,l,s′
其中,I, N, L分别为测试图像的数量,噪声类型的数量和消息M的长度。
传统攻击下该模型嵌入的水印的表现
对比实验,这个可以看论文的图和表。
这一段解释了为什么深度学习对于嵌入水印有用。
这一段解释了为什么深度学习对于嵌入水印有用。
作者于其中根据自己的模型做了一个实验,有助于进一步理解水印机制:
提出的水印嵌入处理步骤可以简单的表示为: I e n = I c o + I m I_{en}=I_{co}+I_m Ien=Ico+Im,其中 I m I_m Im包含所有的30位的水印信息,但是很难在单一的 I m I_m Im中找到水印的嵌入机制。
在载体图像中嵌入一个全零的信息 M 0 M_0 M0,由此生成一个水印掩码 I m 0 I_{m0} Im0,在前文中提到,信息M的形式为: M ∈ { − 1 , 1 } L M \in \{-1,1\}^L M∈{−1,1}L,等于该掩码在嵌入的过程中对图像不产生任何影响,以排除神经网络本身对载体图像的影响。
在bit位p处的比特信息b改变信息 M 0 M_0 M0去产生一个掩码 I ( p , b ) I_(p,b) I(p,b),其中 b ∈ { − 1 , 1 } b \in \{-1,1\} b∈{−1,1}。并且差分映射 I D ( p , b ) = 20 ∣ I ( p , b ) − I m 0 ∣ I_{D(p,b)}=20|I_{(p,b)}-I_{m0}| ID(p,b)=20∣I(p,b)−Im0∣被用于反应嵌入水印信息的比特信息和比特位置对载体图像的影响。可能还需要注意的是,只关心哪些像素已经被修改, I D ( p , b ) I_{D(p,b)} ID(p,b)被转换为单通道映射。下图为相同的比特位置但是是不同的比特信息。可以看出修改像素(白色像素)的数量和分布是不同的,这表明相同比特位置的不同比特信息具有不同的嵌入模式。
接下来是在不同的比特位置给相同的比特信息,下图可以看出不同位置的相同信息但是也有不同的嵌入效果。(a)(b)是 I D ( 0 , − 1 ) I_{D(0,-1)} ID(0,−1)和 I D ( 1 , − 1 ) I_{D(1,-1)} ID(1,−1)
然后将(a)(b)相加得到(d),可以看出来与©的 I D ( 0 , − 1 ) ( 1 , − 1 ) I_{D(0,−1)(1,−1)} ID(0,−1)(1,−1)不完全相同。结果可以看出,每一位可以相互作用,但是嵌入的模式是有条件限制的,在相同的位置上嵌入不同的信息就会导致了整体的大不相同,而在不同位置嵌入相同信息也是两个图片完全不同。
作者这里是这样分析的:具体来说,计算数字是为了解释。理想情况下,如果封面图像上不同位位置的修改之间没有交互作用, I D ( 0 , 1 ) I_{D(0,1)} ID(0,1)和 I D ( 1 , 1 ) I_{D(1,1)} ID(1,1)在 I D ( 0 , 1 ) ( 1 , 1 ) I_{D(0,1)(1,1)} ID(0,1)(1,1)中的白色像素上平分, I D ( 0 , 1 ) ( 1 , 1 ) I_{D(0,1)(1,1)} ID(0,1)(1,1)和 I D ( 0 , 1 ) I_{D(0,1)} ID(0,1) + I D ( 1 , 1 ) I_{D(1,1)} ID(1,1)也是相同的。实际上,出现在 I D ( 0 , 1 ) I_{D(0,1)} ID(0,1)和 I D ( 0 , 1 ) ( 1 , 1 ) I_{D(0,1)(1,1)} ID(0,1)(1,1)(图(e)中的紫色像素)相同位位置的白色像素数量占 I D ( 0 , 1 ) ( 1 , 1 ) I_{D(0,1)(1,1)} ID(0,1)(1,1)中白色像素的50.5%。
I D ( 1 , 1 ) I_{D(1,1)} ID(1,1)和 I D ( 0 , 1 ) ( 1 , 1 ) I_{D(0,1)(1,1)} ID(0,1)(1,1)(图(e)中的黄色像素)、 I D ( 0 , 1 ) I_{D(0,1)} ID(0,1)+ I D ( 1 , 1 ) I_{D(1,1)} ID(1,1)和 I D ( 0 , 1 ) ( 1 , 1 ) I_{D(0,1)(1,1)} ID(0,1)(1,1)之间的相同计算结果分别为51.6%和84.3%。
最后一个数字略小于100%,或者说紫色和黄色像素小概率占据同一位置,这意味着虽然每一位信息的嵌入图案不是完全独立的,但在一定程度上基本保留了独立相加的性质。
结论:基于以上讨论,得出以下结论:(1)同一比特位置的不同比特信息具有不同的嵌入模式;(2)相同的比特信息在不同的比特位置具有不同的嵌入模式;(3)每个比特位置之间相互影响很小,独立性有限。
最后,多像素修改掩膜表示水印信息的每一位都以冗余的方式嵌入到图像中,这与我们模型设计的初衷是一致的。它还说明了为什么在受到高强度噪声(如Dropout、Cropout和Crop)攻击的编码图像中仍然可以准确地提取水印信息。
提出了一个新颖实用的两阶段可分离深度学习(TSDL)框架,该框架由无噪声的端到端对抗训练(FEAT)和无噪声的解码器专用训练(ADOT)组成,用于盲水印。广泛的实验表明,所提出的 TSDL 框架不仅对常见的传统高强度噪声具有鲁棒性,而且对一些黑箱噪声也具有鲁棒性,而这些噪声在以前的工作中没有得到测试。与最先进的方法相比,TSDL 框架对大多数类型的噪声都取得了最好的性能。
试图揭示基于深度学习的盲目水印的机制
我的看法是:作者是通过改变强度因子来同时调整鲁棒性和视觉效果,但是强度因子同样需要人工设定,这样又导致了需要根据不同图像的特征去人为手工设置算法的结果。有没有一种可以自适应的强度因子同时能平衡这两个指标呢