图片审核库过滤方案

后台图片审核相对文本审核难度大得多。很难做到用程序来检测图片是否非法。

大部份网站均是采用人工审核的方式,对于用户上传图片日增量在千万级的网站,人工审核的成本就显得非常高。

怎么样减少人工审核量,提高整体效率?

 

基于网络上非法图片多数是复制传播,只有少数为原创。借鉴了杀毒软件的病毒库的方法,利用目前人工审核后打上删除标记的图片,我们提取出这些图片的特征信息,并与新上传的图片的特征信息进行对比,符合99%的相似即可认为上传非法图片。

 

问题的关键是图片特征信息的提取,参考以下网络图。

 

我采用了把图片先进行按等比例切块,计算每一块的颜色索引值总和,然后按所在块序号为权重进行累加得到总颜色值,再除图片的长*宽(以减少图片缩放带来的影响)作为特征值。 比较精确的方式应该是两张图片按对应块的颜色值进行比较,但却不太合适与海量图片的检索。
   由于要遍历得到所有像素的图片索引值,对于一张1000*1000大小的图片,要循环100W次,非常耗时,试着把图片缩小到500像素,和原图进行比较相似度可在99.9%以上。

   不管怎么样采用这种方法取得所谓的特征值还是比较耗时,于是先按图片内容的MD5值进行对比排除掉完全一样的图片,然后再进行图片长、宽、文件大小进行对比,文件大小差异在50像素以内(因为图片被加水印签名),最后才进行特征值的对比。


 

 

网上可参考文章 特征码——制服图片垃圾邮件

http://data.chinabyte.com/zjgd/483/3055983.shtml

 

http://www.yuanma.org/data/2006/0605/article_642.htm

 

http://hi.baidu.com/pasan/blog/item/d31c06f741194a26720eecf4.html

涉及关键字  图像检索

VC++实现图像检索技术

http://www.yesky.com/20030121/1649466.shtml

 

你可能感兴趣的:(安装配置,杀毒软件,网络,c)