参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑
作者 |CV君
来源 | 我爱计算机视觉(id:aicvml)
要说目前最火的用到手机摄像头的应用是什么,毫无疑问非二维码识别莫属了。微信带起来的二维码热,几乎已经改变了整个世界的支付方式、社交方式。
但二维码的设计毕竟是为了对算法友好,人眼看起来就丑了些。
一种天然的想法是,能否把信息嵌入到照片里去?想象一下如果给一张个人大头照,就可以自动提取里面的名片信息,或者扫个风景照就支付,那看起来就自然多了。
实际上用图像检索的方式可以在一定程度上实现上述功能,提取特征然后到服务器上匹配图像,把对应信息下载下来。
传统的AR(增强现实)就是这么做的。但这需要联网,而且对于纹理不丰富的图片,检索效果很差,也没有很好的信息校正机制。以前有一家国内电商用类似图像检索的方式做过拍书籍封面搜商品的应用,但用的人并不是很多。
深度学习时代,能否实现照片“隐写术“?
几天前看到一篇论文,感觉距离实现这个目标不远了。
论文题目“StegaStamp: Invisible Hyperlinks in Physical Photographs”,翻译一下就是《隐写邮票:自然照片中嵌入不可见超链接》,Stega有隐写术的意思。
这篇论文作者来自美国加州大学伯克利分校。
作者的想法就是把信息写入图像中,使打印出来的图片感知度不被破坏,同时拍摄打印的图片还能把信息解码出来!
下图把这个一目了然表达了出来。需要说明的是,作者论文中说不只是打印照片支持拍照再解码,显示在屏幕上也能拍照后解码。
作者的视频介绍:
细节的流程是这样的,如下图:
图像与要嵌入的信息经过神经网络编码成新的照片,经过打印或者屏幕显示后再拍摄,把得到的图像经过检测算法得到校正后的图像区域,该图像经过解码算法得到嵌入图像里的信息。
这个过程中,我们不免有疑问,信息嵌入会不会影响照片的视觉感知?另外,信息嵌入是可以,但经过打印或者再次成像后拍照,外界的环境变化可能很大,如何保证提取信息的鲁棒性?
在目前该文的算法中,嵌入信息过多的确会影响视觉感知,但作者实验嵌入100bits信息还是OK的。
下图展示了,嵌入信息后(第二列)与原始图像(第一列)的差异(第三列)。视觉上几乎难以分辨不同。
至于解决鲁棒性的问题,做法是在训练解码器的时候,模拟真实的图像质量退化模型对嵌入信息的图像做变换。如下图:
包括图像透视变换、模糊化、颜色操作、加噪声、JPEG压缩。
最终该文得到的效果还是很不错的!
在大多数情况下都能100%正确解码!
下图为更多图像的识别结果:
同时该算法对各种真实世界的环境影响均有鲁棒性。
这是对抗光照变化:
这是对抗视角变化:
这是对抗局部遮挡:
这是对抗光线反射:
更多结果请看:
是不是很神奇?!
这个算法感觉很有用,不知道作者申请了专利没有。
作者已经开源了代码:
https://github.com/tancik/StegaStamp
该项目主页:
http://www.matthewtancik.com/stegastamp
论文地址:
https://arxiv.org/abs/1904.05343
有了这个技术,很多有趣的东西可以做出来,它不仅可以作为超链接,还可以在用户不知情的情况下对照片和屏幕嵌入信息。。。
(本文为AI科技大本营转载文章,转载请联系原作者。)
◆
精彩推荐
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开。首届CTA核心技术及应用峰会将围绕人工智能,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
同时,我们推出会议双日开发者盲定票,仅售299元(原票价1099元),限量30张。请扫描下方二维码,或添加小助手微信1731967109,备注【CTA】,了解大会详情以及票务问题。
推荐阅读:
开什么玩笑?股票价格如何经得起AI的推敲?| 技术头条
深入卷积神经网络背后的数学原理 | 技术头条
用Python实现OpenCV特征提取与图像检索demo
Python基础入门——简介和环境配置,超实用!
云计算之基,一文带你速懂虚拟化KVM和XEN
Erlang 之父去世,他留给程序员两点忠告
程序员逆袭为美国最佳 CEO,他说因为爱情
用一枚比特币环游世界? 他是不是疯了...
程序员如何向女友解释:为啥软件都要装C盘?
❤点击“阅读原文”,直接参与大会报名。