如何在上亿张图片中找到相同的图片

论文地址 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.2585&rep=rep1&type=pdf

项目背景

有一些网站比如豆瓣拥有几十亿结构类似的图片, 为了更好的压缩, 豆瓣会对所有用户的图片生成大小一样的缩略图.

一些分析师想要在这些图片中找到某个小姐姐的地址如同大海捞针, 毕竟在豆瓣只要有400个粉丝就是大V了.

传统的图片内容hash工具, 比如pHash 在对图片进行处理时, 需要经过 压缩->灰度化->LDT->编码这样的阶段, 大量的矩阵运算会拖垮运行效率.

而这篇论文的方法由于算法复杂度可控, 更适合寻找完全相同的图片

解决方法

如何在上亿张图片中找到相同的图片_第1张图片
打点

对任何一个图像进行稳定打点, 然后通过比较取样点, 和周围的8个取样点的明暗关系来形成一个 唯一的hash码.

这种编码的结果是定长的, 且没有涉及到矩阵运算过程.所以相对来说速度会快的多.

因为它是通过采样来比较明暗关系, 所以它无法处理图片旋转, 切割, 颜色涂改的问题.
只能处理图片的小范围水印, 大小拉伸, 压缩的问题.

如何在上亿张图片中找到相同的图片_第2张图片
image.png

你可能感兴趣的:(如何在上亿张图片中找到相同的图片)