(已加马赛克)10 行代码判定色*情*图片——Python 也可以系列之二

10 行代码判定色*情*图片——Python 也可以系列之二

作者:赖勇浩(http://blog.csdn.net/lanphaday

致编辑:我已经给图片打上马赛克了,别再删除了啊,我这是纯技术贴!

声明:本文因科学研究需要,包含部分色*情*图片,不可作为传播色*情*信息的证据。

今天先是在 CSDN 看到《大学生发明依据皮肤比例过滤色*情*图片软件》(http://news.csdn.net/n/20081028/120298.html),后来发现这条新闻竟然已经上了网易新闻频道了(http://news.163.com/08/1028/05/4PAORMQB00011229.html),着实令人吃惊。

(已加马赛克)10 行代码判定色*情*图片——Python 也可以系列之二

来自网易新闻的图片

根据作者的话说:“这个软件的原理在于通过计算面部、四肢图像区域,与整个肤色区域的面积比例和具体的分布,来判断网站中是否含有色*情*图片。”我估计他用的就是普通的肤色模型对图片的像素进行检测和统计,最多加上一些色块的分布、形状等数据进行一些条件过滤。于是我就写了段代码来分析图像,把图像中非肤色的像素去除,效果如下(声明:程序计算的数据是根据未打马赛克的图片计算的,因为保持 CSDN 博客的需要,故打上马赛克再发表):

x

相应的图片处理后的结果是:

可见简单的肤色模型已经能够工作得很好。

接下来就可以写统计肤色像素的代码了,很短,只有 10 行,充实体现了 Python 语言的强大,以及李济民同学的研究并不深入:

import sys, Image

img = Image.open(sys.argv[1]).convert('YCbCr')

w, h = img.size

data = img.getdata()

cnt = 0

for i, ycbcr in enumerate(data):

y, cb, cr = ycbcr

if 86 <= cb <= 117 and 140 <= cr <= 168:

cnt += 1

print '%s %s a porn image.'%(sys.argv[1], 'is' if cnt > w * h * 0.3 else 'is not')

下面简单讲解一下代码:

1) Image 是 PIL 库,我曾经写过一篇《用Python做图像处理》(http://blog.csdn.net/lanphaday/archive/2007/10/28/1852726.aspx),基本用法可以参考此文。

2) img = Image.open(fn).convert('YCbCr'),这一行打开从命令行传入的文件名,然后转换到 YCbCr 色彩空间,关于 YCbCr 的理论知识,可以参考http://baike.baidu.com/view/564370.htm

3) data = img.getdata(),这一句是为了方便快速操作像素而获取图像数据

4) if 86 <= cb <= 117 and 140 <= cr <= 168:,这一句最为重要,是本文的精髓所在。根据 YCbCr 肤色模型,许多论文推荐用 86 <= cb <= 127,130 <= cr < 168,但经实验,这个数值并不好,所以我把 cb 的上限改为 117,cr 的下限改为 140,过滤掉太白和太黑的部分。

最后本程序的执行结果是这样的:

E:\>c:\python25\python test_skin.py 114.jpeg

114.jpeg is a porn image.

其中 114.jpeg 就是上例中的第三幅图片。

综上所述,重庆邮电大学的大四学生李济民,只不过是利用了一个非常成熟的理论(肤色检测是人脸识别等计算机视觉学科的基础知识),写了一点点代码(也许他用 C++ 写的代码比我用 python 写的多一些,但最多也就多三两百行),并没有实质性的科研突破,产品也不够成熟(按他的话就是比*基*尼美女都识别不了),记者和网站对他进行宣传,实为棒杀。

另,许多 CSDN 的网友对他用的“嵌入浏览器内,很难删除”的说法很好奇,在这里顺便提一下李同学应该是用 Browser Helper Object,又称 BHO 技术来完成这件事的,这是一个很简单的技术,查查 MSDN,用 VC/VB/C# 都能很方便地写出来,当然,也可以很方便地删除。哈哈。

你可能感兴趣的:(.net,python,vb,vc++,VB.NET)