StegaStamp: Invisible Hyperlinks in Physical Photographs 阅读报告

文章的基本信息

  • 标题: StegaStamp: Invisible Hyperlinks in Physical Photographs
  • 作者:Matthew Tancik∗ Ben Mildenhall∗ Ren Ng
  • 论文地址: https://arxiv.org/abs/1904.05343

论文摘要

  • 原文

    Imagine a world in which each photo, printed or digitally displayed, hides arbitrary digital data that can be accessed through an internet-connected imaging system. Another way to think about this is physical photographs that have unique QR codes invisibly embedded within them. This paper presents an architecture, algorithms, and a prototype implementation addressing this vision. Our key technical contribution is StegaStamp, the first steganographic algorithm to enable robust encoding and decoding of arbitrary hyperlink bitstrings into photos in a manner that approaches perceptual invisibility. StegaStamp comprises a deep neural network that learns an encoding/decoding algorithm robust to image perturbations that approximate the space of distortions resulting from real printing and photography. Our system prototype demonstrates real-time decoding of hyperlinks for photos from in-the-wild video subject to real-world variation in print quality, lighting, shadows, perspective, occlusion and viewing distance. Our prototype system robustly retrieves 56 bit hyperlinks after error correction – sufficient to embed a unique code within every photo on the internet.

  • 翻译

    想象一下世界上每张照片,印刷品或数码照片隐藏任意数字数据,这些数据可以是通过互联网连接的成像系统进行了获取。另一种思考方式就是物理照片将无形的QR码隐藏在其中。本论文介绍了一种解决这一愿景的架构,算法和原型实现。我们的关键技术 第一个隐写术是StegaStamp 算法,它可以实现健壮的(鲁棒)编码和解码,将超链接位串转换为照片以一种接近感性隐形的方式。StegaStamp包括一个深度神经网络,学习一种强大的图像扰动的编码/解码算法,可近似得到真正的印刷和摄影造成的扭曲空间。我们的系统原型演示了实时解码来自野外视频的照片的超链接,可以实现打印质量,光照,阴影,透视,遮挡和观看距离的真实变化。我们的原型系统可以在出错后鲁棒地检索56位超链接进行更正——足以为互联网上的照每个片嵌入唯一代码。

论文结论

  • 原文

    We have presented StegaStamp, an end-to-end deep learning framework for encoding 56 bit error corrected hyperlinks into arbitrary natural images. Our networks are trained through an image perturbation module that allows them to generalize to real world display-imaging pipelines. We demonstrate robust decoding performance on a variety of printer, screen, and camera combinations in an experimental setting. We also show that our method is stable enough to be deployed in-the-wild as a replacement for existing barcodes that is less intrusive and more aesthetically pleasing.

  • 译文

    我们介绍了StegaStamp,这是一个端到端的深度学习框架,用于将56位纠错的超链接编码为任意自然图像。退化模型允许您推广到真实世界的显示成像管道。 我们在实验环境中证明了在各种打印机,屏幕和相机组合下解码的鲁棒性。 同时,我们也证明了我们的方法足够稳定,可以在各种外部环境下使用,以替代现有的条形码,这种条形码不那么具有侵入性,并更具美观性。

拟解决的问题

传统的条形码和二维码,虽然可以提到传递信息的作用,但是外表比较丑。所有,笔者想是否可以把信息嵌入到图片中,使打印出来的图片感知度不被破坏,同时还可以通过拍照图片就可以提取到之前嵌入的信息。

提出的方法

作者提出了一个系统——StegaStamp,该系统的工作过程如下:

  1. 为超链接分配一个唯一的字串
  2. 使用StegaStamp的编码器将字串嵌入到图片中,同时保持嵌入后图片和嵌入前感官上的相同。
  3. 嵌入后的图片被打印,展示在现实世界
  4. 一个使用者为打印出的图片拍照
  5. StegaStamp的侦测器处理每张图片,检索其唯一的字串。
  6. 译码器通过上述字串找到对应超链接,最后索引到嵌入的信息。

**概括来说:**图像与要嵌入的信息经过神经网络编码成新的照片,经过打印或者屏幕显示后再拍摄,把得到的图像经过检测算法得到校正后的图像区域,该图像经过解码算法得到嵌入图像里的信息。

遇到的技术难点

  • 经过打印等操作,再次拍照上传,各种环境因素对识别率的干扰

    • 解决方法:在论文的第三部分着重进行了分析。在训练解码器的时候,模拟真实的图像质量退化模型对嵌入信息的图像做变换。包括图像透视变换、模糊化、颜色操作、加噪声、JPEG压缩。
  • 信息嵌入后图片质量的保持,即对图片的视觉感知影响较小

    • 解决方法: 该论文并没有提出解决方法,只提出:越长的信息越难以进行编码也解码

      提出100bit是同时保持较高图片质量信息传输的折中长度。

文章的解读

  • 摘要

    为了降低现有条形码和二维码的侵入性,提高其美观性,做着提出了将信息嵌入任意图片的想法,并对该问题提出了架构,算法和原型实现。

  • 介绍

    介绍了该想法的现实意义

    提出框架的基本流程

    介绍该架构的侧重点及实现过程中的技术难点

  • 相关工作

    • 隐写学

      • 介绍隐写学的基本概念
      • 基于深度学习的解码/译码。提出自己的模型不同:基于 编码与解码之间的成像管道里对图片的损坏 的假设。
    • 条码

      介绍了关于条码的一些知识

    • 鲁棒对抗性图片攻击

      介绍了增强模型鲁棒性的方法,即:Most relevant to our work are the demonstrations of adversarial examples in the physical world [3, 8, 11, 20, 21, 31, 32], where systems are made robust for imaging applications by modeling physically realistic perturbations (i.e., affine image warping, additive noise, and JPEG compression)., 通过模拟现实世界中的一些干扰,来增强模型的鲁棒性。

  • 训练模型的鲁棒性

    在训练解码器的时候,模拟真实的图像质量退化模型对嵌入信息的图像做变换。包括图像透视变换、模糊化、颜色操作、加噪声、JPEG压缩。

  • 实施细节

    • 编码器

      • 编码器经过训练,可以将信息嵌入图像中,同时最大限度地减少信息之间的感知差异在输入和编码图像之间。
      • 促进消息收敛: 使用U-Net风格的架构,该架构接收一个四通道400×400像素输入(来自输入图像的RGB通道加上消息的一个)并输出三通道RGB残留图像。该输入消息表现为100位二进制字符串,通过完全连接的层处理以形成50×50×3张量,然后上采样产生400×400×3张量。
      • 减少编码图像的失真:采用了L2失,LPIPS感知损失和critic loss
    • 译码器

      译码器的作用是从编码图片中恢复隐藏的信息。

    • 侦测器

      因为现实使用中,在解码前需先确定嵌入区域。所以采用了语义分割网络BiSeNet [35]用于分割图像中被认为含有StegaStamps的区域。并使用从DIV2K [1]采样的高分辨率图像取样的随机转换StegaStamps嵌入的数据集。

  • 编码/解码过程

    • Training Data

      培训期间,我们使用来自的图像MIRFLICKR数据集与随机抽样的二进制消息相结合。 并且将图像重新采样为400×400。

    • Critic

      我们使用价值模型来判断是将信息编码进图像,还是该信息回造成成像管道中的感知损失。为了训练价值模型,以Wasserstein loss为分类依据将输入图像和编码图像进行分类,该模型训练和编码/译码的训练交叉进行。

    • Loss Weightin

      总的训练损失公式:
      L = λ R L R + λ P L P + λ C L C + λ M L M L = \lambda _ { R } L _ { R } + \lambda _ { P } L _ { P } + \lambda _ { C } L _ { C } + \lambda _ { M } L _ { M } L=λRLR+λPLP+λCLC+λMLM
      并提出了在训练网络时,三个损失函数调整特别有用的建议。

  • 现实世界&仿真评估

    介绍了实验的仿真评估方法,通过18种设备组合,在各真实环境下进行各种情况的测试。

    • In-the-Wild Robustness

      真实复杂环境中的一些测试结果分析

    • Controlled Real World Experiments

      从测试集(与训练集不相交)选择100张图片,进行编码测试。

      设置5组相同模型,使用相同输入,控制嵌入信息不同,进行测试。

      展示实验结果

    • Ablation(消融)实验

      通过设置四组实验(都有,无扰,只有像素扰动,只有空间扰动),验证了添加各类扰动对模型鲁棒性和结果精度的影响,并得出结合了像素和空间扰动,可以大幅度地实现最精确和准确的结果的结论。

    • Practical Message Length

      越长的信息越难以进行编码也解码,提出100bit是同时保持较高图片质量信息传输的折中长度。

    • 局限性

      • 编码器网络添加的残差有时在大量的图像低频区域中是可感知的。未来的工作可以改进我们的架构和损耗函数,以训练 产生更不易察觉得编码 的编码器/解码器。
      • 此外,我们发现现成的检测网络是我们在实际测试过程中解码性能的瓶颈。 使用编码器/解码器端到端优化的自定义检测架构可以提高检测性能。
      • 当前框架还假设StegaStamps将是单个方形图像以用于检测。 我们想象将多个代码无缝嵌入到单个较大的图像(例如海报或广告牌)中可以提供更多的灵活性。

可以理解的部分

论文所提架构的基本思想

验证过程中的一些实验方法

不能完全理解的部分

  • 论文翻译…一些专业名词不知道怎么翻译合适
  • 透视变换,Ablation实验,一些东西没听过,只能大概知道什么意思。

文章的优势

  • 结构清晰,从问题提出,到解决方法提出,实验过程,结果展示
  • 论证充足,对各个情况进行了考虑,并提供了大量实验数据作为支持

你可能感兴趣的:(阅读)