【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(2. 信息隐藏与数字水印)

【相关链接】

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(1. 绪论)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(3. 文本安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(4. 多媒体安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(5. 社交媒体安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(6. 大数据安全)

【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(7. 网络信息内容监控)

2. 信息隐藏与数字水印

2.1. costa模型

  1. 载体看作是噪声

2.2. Mulin模型

  1. 引入失真限度来衡量不可感知性

    1. 信息嵌入满足失真限度D1: 当s和x和y差不多时隐蔽性好: 隐写失真小(不可感知性)
    2. 攻击信道满足失真限度D2: 攻击失真小: 鲁棒性, 能经受攻击的大小(鲁棒性: 攻击失真
  2. 信息隐藏的三个评估指标:

    1. 不可见性(失真度): 当s和x和y差不多, 隐写失真小
    2. 鲁棒性: 攻击失真小, 能经受攻击的大小
    3. 隐藏容量: 与信号, 子信道(码数率: 编码器每秒编出的数据大小,单位是 kbps), 图像/音频, 失真函数有关
  3. 数字水印的性能评价

    1. 鲁棒性: D k ( p ( E k ( c , m , k ) , k ) = D k ( E k ( c , m , k ) , k ) = m D_k(p(E_k(c,m,k),k)=D_k(E_k(c,m,k),k)=m Dk(p(Ek(c,m,k),k)=Dk(Ek(c,m,k),k)=m,其中p是一类映射C->C(C是载体信息), 相当于做了一些非恶意修改
    2. 不可感知性: 要求嵌入信息后, 宿主数据质量没有明显下降, 凭借人类感知系统不能发现其中嵌入了信息. 对于不可感知性的评价: 主观测试(测试人员进行观察), 客观度量(差分失真度量, 相关性失真度量)
    3. 容量: 水印容量是水印系统信道的最大可靠传输率

2.3. 基于分类器的隐写分析框架

  1. 基于分类器的隐写分析框架
    1. 训练: 图像样本采集–>图像预处理->特征提取->训练分类器->检测图像->分类
    2. 测试:图像预处理->特征提取->检测图像->分类
  2. lenet5
    1. 基础
      1. loss function的选取: 选取凹面损失函数, 以便得到全局最优值
      2. Loss function的原则和目的就是要衡量预测输出Y_hat与真实样本输出y的接近程度
      3. 整个神经网络的训练过程实际上包含了两个过程:正向传播(Forward Propagation)和反向传播(Back Propagation)
      4. 计算图(Computation graph):实现反向传播
      5. 输入层(Input layer),隐藏层(Hidden layer)和输出层(Output layer)
      6. 激活函数的选择:
        1. sigmoid取值范围[0,1]一般用于输出层
        2. tanh取值范围[-1,+1], 隐藏层的输出被限定在[-1,+1]之间,可以看成是在0值附近分布,均值为0。这样从隐藏层到输出层,数据起到了归一化(均值为0)的效果, 通常用于隐藏层
        3. sigmoid tanh缺点, 当输入特别大的时候梯度下降速率很慢, 因此出现了ReLU, LeakyReLU
        4. ReLU梯度下降速度快, 但是无法克服输入为0的时候的取值, 因而出现LeakyReLU
      7. 为什么需要非线性函数:
        1. 如果没有非线性函数, 那么最后的结果仍然是变量x的线性组合, 即便是包含多层隐藏层的神经网络,如果使用线性函数作为激活函数,最终的输出仍然是输入x的线性模型
      8. 神经网络模型中的参数权重W是不能全部初始化为零的:
        1. 这样的结果是隐藏层所有神经元对应的权重行向量每次迭代更新都会得到完全相同的结果, 这样隐藏层设置多个神经元就没有任何意义了。值得一提的是,参数b可以全部初始化为零,并不会影响神经网络训练效果
      9. 神经网络中的超参数:
        1. 是例如学习速率αα,训练迭代次数N,神经网络层数L,各层神经元个数n[l]n[l],激活函数g(z)g(z)等。之所以叫做超参数的原因是它们决定了参数W[l]W[l]和b[l]b[l]的值
        2. 如何设置最优的超参数是一个比较困难的、需要经验知识的问题。通常的做法是选择超参数一定范围内的值,分别代入神经网络进行训练,测试cost function随着迭代次数增加的变化,根据结果选择cost function最小时对应的超参数值
    2. 卷积神经网络
      1. 在深度学习中,如果我们想检测图片的各种边缘特征,而不仅限于垂直边缘和水平边缘,那么filter的数值一般需要通过模型训练得到

      2. padding: 如果原始图片尺寸为n x n,filter尺寸为f x f,则卷积后的图片尺寸为(n-f+1) x (n-f+1), 这样会带来两个问题: 卷积运算后, 输出图片尺寸缩小, 原始图片边缘信息对输出贡献得少, 输出图片丢失边缘信息

        1. 经过padding之后,原始图片尺寸为(n+2p) x (n+2p),filter尺寸为f x f,则卷积后的图片尺寸为(n+2p-f+1) x (n+2p-f+1)。若要保证卷积前后图片尺寸不变,则p应满足: 2p-f+1=0
      3. 步长:在这里插入图片描述

      4. 三维卷积:

        1. 过程是将每个单通道(R,G,B)与对应的filter进行卷积运算求和,然后再将3通道的和相加,得到输出图片的一个像素值
        2. 为了进行多个卷积运算,实现更多边缘检测,可以增加更多的滤波器组。例如设置第一个滤波器组实现垂直边缘检测,第二个滤波器组实现水平边缘检测。这样,不同滤波器组卷积得到不同的输出,个数由滤波器组决定
      5. 选定滤波器组后,参数数目与输入图片尺寸无关。所以,就不存在由于图片尺寸过大,造成参数过多的情况,

        1. 在CNN中,参数数目只由滤波器组决定,数目相对来说要少得多,这是CNN的优势之一
      6. 池化层

        1. Pooling layers是CNN中用来减小尺寸,提高运算速度的,同样能减小noise影响,让各特征更具有健壮性
        2. 最大池化, 平均池化
        3. 没有参数需要学习, 只需确定超参数
      7. 为什么使用卷积神经网络:

        1. 参数共享:一个特征检测器(例如垂直边缘检测)对图片某块区域有用,同时也可能作用在图片其它区域
        2. 连接的稀疏性:因为滤波器算子尺寸限制,每一层的每个输出只与输入部分区域内有关
        3. 除此之外,由于CNN参数数目较小,所需的训练样本就相对较少,从而一定程度上不容易发生过拟合现象。
        4. ,CNN比较擅长捕捉区域位置偏移。也就是说CNN进行物体检测时,不太受物体所处图片位置的影响,增加检测的准确性和系统的健壮性
    3. lenet5描述
      1. LeNet-5详解

      2. 局部感受野: 对于一般的深度神经网络,往往会把图像的每一个像素点连接到全连接的每一个神经元中,而卷积神经网络则是把每一个隐藏节点只连接到图像的某个局部区域,从而减少参数训练的数量

      3. 共享权值。在卷积神经网络的卷积层中,神经元对应的权值是相同的,由于权值相同,因此可以减少训练的参数量。共享的权值和偏置也被称作卷积核或滤汲器

      4. 池化。由于待处理的图像往往都比较大,而在实际过程中,没有必要对原图进行分析,能够有效获得图像的特征才是最主要的,因此可以采用类似于图像压缩的思想,对图像进行卷积之后,通过一个下采样过程,来调整图像的大小

      5. 因为我们应对的领域是图像识别的领域同时网络的类型是基于BP的,因此针对这个领域先看看BP的缺点,我们知道BP网络是全连接的,对于图片的识别,我们不用提取特征,一般一层提取特征的效果并不是很好,因此我们需要很多层,如果按照BP进行全连接,会使得权值数量急剧增加,想要训练这么多的权值,样本必须足够的才行,即使样本数量够,但是计算量也会急剧增加,而且还有面临梯度消失的情况,因此需要改进连接的方式即采用局部连接和权值共享

      6. 此时是按照每个神经元的连接权值如上图的是其中一个神经元的是4个权值,所谓权值共享,就是其他神经元的权值也使用这四个值,此时的位置和数值都是这样对应的

      7. 边缘过度不平滑: 为了解决这个问题引入了采样窗口法使其彼此重叠

      8. 总共8层网络: 输入层(INPUT)、卷积层(Convolutions,C1)、池化层(Subsampling,S2)、卷积层(C3)、池化层(Subsampling,S4)、卷积层(C5)、全连接层(F6)、输出层(径向基层)

      9. 【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(2. 信息隐藏与数字水印)_第1张图片

      10. 卷积层(Convolutions,C1): 提取特征:

      11. 我们从上图可以看到这里有6个特征平面(这里不应该称为卷积核,卷积核是滑动窗口,通过卷积核提取特征的结果叫特 征平面)

      12. 6个特征平面对应6个不同的卷积核或者6个滤波器,每个滤波器的参数值也就是权值都是一样的,下图就是卷积对应的一个特征平面,这样的平面有6个,即卷积层有6个特征平面

      13. 权值数为:(5x5+1)x6 = 156个

      14. 池化层(Subsampling,S2): 降低数据维度:

        1. 池化层又叫下采样层: 如何压缩呢,通过选择框的数据求和再取平均值然后在乘上一个权值和加上一个偏置值
      15. 卷积层(C3)

        1. 一个特征平面对应不同个数的池化层
      16. 池化层(S4):

      17. 卷积层(C5):

        1. 16个平面且每个平面为5x5,本层使用的卷积核为5x5
        2. 本层只有120个神经元并列排列
      18. 全连接层(F6):

      19. 输出层: 【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(2. 信息隐藏与数字水印)_第2张图片

2.4. 数字水印概述

  1. 数字水印的定义
    1. 用于版权保护的数字水印: 嵌入版权所有者信息
    2. 用于盗版跟踪的数字指纹: 同时嵌入所有者信息, 购买者信息
    3. 用于拷贝保护的数字水印: 水印与作品的使用工具相结合
    4. 永久镶嵌, 不影响可用性
  2. 数字水印特点
    1. 安全性: 数字水印难以被发现、擦除、篡改或伪造,同时,要有较低的虚警率
    2. 可证明性: 数字水印为宿主的归属问题提供依据
    3. 不可感知性: 从感官上和统计上都不可感知
    4. 稳健性: 数字树荫难以被擦除
    5. 脆弱性: 对载体的任何改变会引起水印的改变
  3. 数字水印嵌入和提取模型
    1. 水印嵌入: 水印信息, 载体数据, 密钥输入水印算法, 得到瀚抒音的载体数据
    2. 水印提取算法: 载体数据, 密钥输入水印提取算法, 得到水印信息
    3. 提取原始水印
      1. 非盲检测: 需要将原来的载体输入提取算法
      2. 盲检测
      3. 01判决
    4. 信息隐藏不一定需要载体
      水印一定需要载体
      水印一定有多于1比特的水印信息
    5. 常用的水印评价指标
      1. 安全性:水印系统抵抗恶意攻击的能力
      2. 鲁棒性:水印系统承载常规处理的能力
      3. 透明度(保真度):嵌入水印后载体的感知度量(载体是不是还跟原来一样)
      4. 水印容量:水印系统可携带的最大有效载荷数据量
      5. 计算量:嵌入算法与提取算法的计算成本
      6. 虚警率:未加水印而错误的检测出水印的概率
      7. 多水印:同一载体中是否能嵌入多个互不干扰的水印
    6. 水印鲁棒性
      1. 这里的p相当于常规处理
      2. 这里的p相当于没有起到作用
    7. 鲁棒性水印的实现方法
      1. 冗余嵌入
      2. 将水印冗余嵌入,是对抗各种失真的通用策
      3. 冗余嵌入带来的问题是隐藏容量的成倍减少,等容量 嵌入引入的噪声大大增加
    8. 水印透明性
      1. 随着嵌入水印信息量的增加,水印载体的质量必然下降
      2. 主管MOS值
      3. 客观度量: 峰值信噪比
    9. 水印安全性
      1. 抵抗恶意攻击的能力
      2. 常见攻击
        1. 去除攻击: 马赛克攻击: 将图像分成许多小的矩形块…
        2. 表达攻击: stirmark攻击: 集合变形, 对图像进行重采样攻击

2.5. 经典算法

  1. 从载体上分类: 图像, 视频, 音频, 软件, 文档

  2. 从外观上分类: 可见水印(明确标识版权), 不可见水印(目的是起诉非法使用者)

  3. 从检测方法上分类, 非盲水印, 盲水印, 私钥水印和公钥水印

  4. 从加载方式上分类: 空间域水印: LSB方法, 变换域水印:在变换域中进行的

  5. 从水印特性上分类:

    1. 健壮性数字水印: 用于版权标识
    2. 脆弱性数字水印: 用于完整性保护
  6. 从使用目的上分类

    1. 版权标识水印
    2. 数字指纹水印: 包含关于本件产品的版权信息,以及购买者的个 人信息,可以用于防止数字产品的非法拷贝和非 法传播
  7. LSB

    1. LSB (the Least Significant Bits)即最不重要比特位。改变 LSB主要的考虑是不重要数据的调整对原始图像的视觉效果影响较 小。 o 以图像为例,图像部分像素的最低一个或者多个位平面的值被隐藏 数据所替换。即载体像素的LSB平面根据要隐藏的数据改变为 “1”或者不变,以此达到隐藏信息的目的

    2. LSB信息嵌入

    3. clc;
      clear;
      msgfid = fopen('hidden.txt','r');
      [msg, count] = fread(msgfid, 'ubit1');
      fclose(msgfid);
      
      I = imread('lena512.bmp');
      
      k = 1;
      for i = 1:512
          for j = 1:512
          	if(k > count)
                  break;
              end
              I(i, j) = I(i, j) - mod(I(i, j), 2) + msg(k, 1);
              k = k + 1;
          end
          if(k > count)
              break;
          end
      end
      
      imwrite(I, 'wm_lena.bmp','bmp');
      figure;
      subplot(1,2,1);
      imshow('lena512.bmp');
      subplot(1,2,2);
      imshow('wm_lena.bmp');
      
    4. 信息提取

    5. fid = fopen('message.txt','w');
      wi = imread('wm_lena.bmp');
      k = 1;
      for i = 1:512
          for j = 1:512
              if(bitand(wi(i, j), 1) == 1)
                  fwrite(fid, 1, 'ubit1');
              else
                  fwrite(fid, 0, 'ubit1');
              end
              if(k > count)
                  break;
              end
              k = k + 1;
          end
          if(k > count)
              break;
          end
      end
      fclose(fid);
      

你可能感兴趣的:(安全,计算机视觉,深度学习)