深度学习在图像智能审核中的应用(nsfw篇)

深度学习在图像智能审核中的应用(nsfw篇)

NSFW(not suitable for work)图片,顾名思义,就是一些不太适合在工作中浏览的图片,本文介绍的工作是通过深度卷积神经网络来对此类图片进行自动化的审核,由于NSFW图片的定义范围比较广泛,本文主要针对色情图片的审核,不包括文字,写实暴力,政治相关不当内容的审核。

随着计算机视觉、改进的训练数据和深度学习算法的发展,计算机现在能够以更高的精度来自动分类 NSFW 图像内容,近年来,卷积神经网络已经在图像分类问题中取得了巨大成功。自2012年以来,新的卷积神经网络架构一直在不断改进标准 ImageNet 分类挑战的精度。一些主要突破包括了 AlexNet(2012)、GoogLeNet、VGG(2013)和残差网络(Residual Networks)(2015)等等, 这些架构都在当年的ImageNet分类挑战上取得了独领风骚的成绩。

通过训练深度神经网络模型,用于NSFW图片的智能审核,可以降低人工审核的成本,我把他认为是知识技能的迁移,神经网络有及其强大的拟合能力,让其拟合审核人员对于图片的审核判定基准,就类似于将人的技能迁移到了网络模型中,解放了人工,当然,后续任然需要迁移新的知识给模型,让模型进行更新和迭代。

他人的工作介绍

自动识别一张图片是不是NSFW图片是研究者们几十年来一直在试图解决的重要问题。由于当下图像与用户生成的内容主宰了互联网,过滤 NSFW 图像成为网页应用和移动应用的一个重要组成部分。下面主要是阐述yahoo和美团点评在这一块的工作。

yahoo的工作

yahoo 在2016年的时候,开源了首个色情图像检测深度学习解决方案,博客地址

训练细节

在训练过程中,图像被重新调整到256x256像素,水平翻转进行数据增强并被随机裁剪为224x224像素,然后送入网络。在训练网络时,我们使用了ResNet 论文中scale augmentation 来避免过度拟合。并评估各种架构来找到运行时间精度之间的权衡。

  • MS_CTC[4]—这种架构是由微软约束时间成本的那篇论文[4]提出。在速度和精度方面都优于AlexNet

  • Squeezenet[3]—构提出了 fire module,有一些层用于挤压然后扩大输入数据团。这有助于节省参数数量,使 Imagenet的精度与 AlexNet 的一样好,尽管内存需求仅为6MB。

  • VGG[2]—有13层卷积层和 3层 FC 层。

  • GoogLeNet[5]—GoogLeNet 提出了 inception module 并拥有 20 个 convolutional layer statges。它还在中间层中使用 hanging loss functions来解决深度网络中的梯度衰减问题。

  • ResNet-50[1]— 使用shortcut connections 解决梯度衰减问题。我们使用了作者所发布的 50 层的残差网络。

  • ResNet-50-thin—该模型是使用我们的 pynetbuilder 工具生成,并复制了残差网络论文中的 50层网络(每层filter的数量减半)。你可以在这里找到更多有关如何生成和训练模型的细节。

深度学习在图像智能审核中的应用(nsfw篇)_第1张图片
图1 不同网络架构的精度,浮点计算数量,参数数量比较

yahoo训练的模型先在 ImageNet 1000 class 数据集上进行pre-train(预训练)。然后将网络的最后一层全连接层(FC1000)更换为 2 节点的全连接层(FC2),因为该模型是个二分类模型,所以最后分类只需要两个输出。然后用自己的NSFW数据集(fine-tune)微调 NSFW 模型的权重。该模型最后的 FC1000 层的学习率乘数是其他层的 5 倍。同时还调整了一些超参(hyper parameters)(step size, base learning rate)以优化模型表现。

如图2所示,NSFW 分类任务的模型性能与 ImageNet 分类任务中的预训练模型性能有关,所以一个更好的预训练模型,它将有助于精调分类任务。下面的图表显示了我们所提出的 NSFW 评估集合的相对性能。需要注意的是,图中的假正率(FPR)和一个固定的假负率(FNR)所针对的是yahoo的评估数据,在这里作说明用。要用该模型进行 NSFW 过滤的话,建议使用自己的数据来绘制 ROC 曲线并挑选一个合适的阈值。
深度学习在图像智能审核中的应用(nsfw篇)_第2张图片
图 2 不同神经网络架构在imagenet和nsfw上的表现

yahoo选用的是resnet-50-thin模型,理由是该模型可以在达到比较好的分类准确率的同时,计算时间消耗和内存占用相对都比较小((结合图1 和图2)耗时主要是和浮点计算数量模型参数个数有关,后文会涉及),相对比较轻量级,另外,我们可以通过用我们自己的数据集来fine-tuning模型(下文会细说fine-tuning),以使得模型在我们的应用场景中有更好的表现。

美团点评的工作

针对yahoo开源的NSFW模型,美团做了如下优化:

模型细化

分类模型精细化了图片的色情程度:色情、性感、正常人物图、其他类。其中色情、性感、正常人物图互为难分类别,其他类为非人物的正常图片。将性感类别和正常人物图类别从色情类别中分离出来有助于增强模型对色情的判别能力。

从表 2 中可见,相对于雅虎的 NSFW 模型,我们的模型在召回率方面具有明显优势。
深度学习在图像智能审核中的应用(nsfw篇)_第3张图片
表 2 色情图片检测准确率

机器审核结合人工复审

在实际业务中由于涉黄检测采用预警机制,机器审核环节需要尽可能召回所有疑似图片,再结合适量的人工审核来提升准确率。

因此,上层业务逻辑会根据模型预测类别和置信度将图片划分为 “ 确定黄图 ” “ 确定非黄图 ” 和 “ 疑似 ” 三部分。“ 疑似 ” 部分,根据置信度由高到底进行排序,并转交人工复审。在线上业务中,“ 确定黄图 ” 和 “ 确定非黄图 ” 部分的精度可达到 99 % 以上,而“疑似”部分只占总图片量的 3 % 左右,这样在保证高精度过滤的条件下可大幅节省人力。

我们的工作

在模型选取方面,我们采用了和yahoo一样的模型,resnet-50-thin,因为yahoo开源的是caffee的模型,我们转化为了tensorflow模型,转化方式参考,并通过tensorflow-serving 进行部署,另外,我们对模型的分类进行了进一步的精细化(人物, 性感,一般色情,色情绘画,正常绘画, 其他,),把绘画单独作为一个类别是为了提高对一些色情的其他表现方式(漫画,卡通,等)的识别准确率。加入人物和绘画的目的是为了分别增强对一般色情和绘画色情的识别能力,具体实现细节将放在下一篇文章讲述。

预训练和fine-tuning的意义(来自网络)

自从深度学习火起来后,预训练过程就是做图像领域的一种比较常规的做法,有比较长的历史了,而且这种做法很有效,能明显促进应用的效果。
深度学习在图像智能审核中的应用(nsfw篇)_第4张图片
那么图像领域怎么做预训练呢,上图展示了这个过程,我们设计好网络结构以后,对于图像来说一般是 CNN 的多层叠加网络结构,可以先用某个训练集合比如训练集合 A 或者训练集合 B 对这个网络进行预先训练,在 A 任务上或者B任务上学会网络参数,然后存起来以备后用。

假设我们面临第三个任务 C,网络结构采取相同的网络结构,在比较浅的几层 CNN 结构,网络参数初始化的时候可以加载 A 任务或者 B 任务学习好的参数,其它 CNN 高层参数仍然随机初始化。之后我们用 C 任务的训练数据来训练网络,此时有两种做法,一种是浅层加载的参数在训练 C 任务过程中不动,这种方法被称为“Frozen”;另外一种是底层网络参数尽管被初始化了,在 C 任务训练过程中仍然随着训练的进程不断改变,这种一般叫“Fine-Tuning”,顾名思义,就是更好地把参数进行调整使得更适应当前的 C 任务。一般图像或者视频领域要做预训练一般都这么做。

这么做有几个好处,首先,如果手头任务 C 的训练集合数据量较少的话,现阶段的好用的 CNN 比如 Resnet/Densenet/Inception 等网络结构层数很深,几百万上千万参数量算起步价,上亿参数的也很常见,训练数据少很难很好地训练这么复杂的网络,但是如果其中大量参数通过大的训练集合比如 ImageNet 预先训练好直接拿来初始化大部分网络结构参数,然后再用 C 任务手头比较可怜的数据量上 Fine-tuning 过程去调整参数让它们更适合解决 C 任务,那事情就好办多了。

这样原先训练不了的任务就能解决了,即使手头任务训练数据也不少,加个预训练过程也能极大加快任务训练的收敛速度,所以这种预训练方式是老少皆宜的解决方案,另外疗效又好,所以在做图像处理领域很快就流行开来。

深度学习在图像智能审核中的应用(nsfw篇)_第5张图片
目前我们已经知道,对于层级的 CNN 结构来说,不同层级的神经元学习到了不同类型的图像特征,由底向上特征形成层级结构,如上图所示,如果我们手头是个人脸识别任务,训练好网络后,把每层神经元学习到的特征可视化肉眼看一看每层学到了啥特征,你会看到最底层的神经元学到的是线段等特征,图示的第二个隐层学到的是人脸五官的轮廓第三层学到的是人脸的轮廓,通过三步形成了特征的层级结构,越是底层的特征越是所有不论什么领域的图像都会具备的比如边角线弧线等底层基础特征,越往上抽取出的特征越与手头任务相关

正因为此,所以预训练好的网络参数,尤其是底层的网络参数抽取出特征跟具体任务越无关,越具备任务的通用性,所以这是为何一般用底层预训练好的参数初始化新任务网络参数的原因。而高层特征跟任务关联较大,实际可以不用使用,或者采用 Fine-tuning 用新数据集合清洗掉高层无关的特征抽取器。
深度学习在图像智能审核中的应用(nsfw篇)_第6张图片

一般我们喜欢用 ImageNet 来做网络的预训练,主要有两点,一方面 ImageNet 是图像领域里有超多事先标注好训练数据的数据集合,分量足是个很大的优势,量越大训练出的参数越靠谱;另外一方面因为 ImageNet 有 1000 类,类别多,算是通用的图像数据,跟领域没太大关系,所以通用性好,预训练完后哪哪都能用,是个万金油。分量足的万金油当然老少通吃,人人喜爱。
一般来说我们自己需要做的方向,比如在一些特定的领域的识别分类中,我们很难拿到大量的数据。因为像在ImageNet上毕竟是一个千万级的图像数据库,通常我们可能只能拿到几千张或者几万张某一特定领域的图像,比如识别衣服啊、标志啊、生物种类等等。在这种情况下重新训练一个新的网络是比较复杂的,而且参数不好调整,数据量也不够,因此fine-tuning微调就是一个比较理想的选择。

总结

上文主要从yahoo 和 美团点评在NSFW图片智能审核的工作展开,从模型选择(权衡运行时间(浮点计算量,模型参数),以及精度),当系统部署到线上,预测耗时是很重要的指标。yahoo的模型在Resnet-50的基础上,修改了一个Resnet-50-thin,在Resnet-50的架构基础上,进一步减少了参数和计算量,美团采用的是GoogleLenet架构,相对yahoo的NSFW模型,取得了明显的进步,主要体现在召回率上。另外,采用机器审核和人工审核相结合的方式可以进一步提高准确率。
本文后面一部分,主要讲述了图像分类任务中预训练和fine-tunning的好处,预训练通过大量数据(比如ImageNet数据集)的训练可以得到模型的浅层参数(通用参数和业务无关),预训练的模型可以认为是一个强大的底层特征抽取器,为后面模型的fine-tuning提供底层特征支撑。 fine-tuning的好处在于不用完全重新训练模型,从而提高效率,适用于样本数量较少的情况,也就是可以让我们站在巨人的肩膀,因为一般新训练模型准确率都会从很低的值开始慢慢上升,但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。fine-tuning 的时候,一般只需要微调模型,学习率可以适当调低些, epoch 也可以减少。

其他参考文献
[1] He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. “Deep residual learning for image recognition” arXiv preprint arXiv:1512.03385 (2015).

[2] Simonyan, Karen, and Andrew Zisserman. “Very deep convolutional networks for large-scale image recognition.”; arXiv preprint arXiv:1409.1556(2014).

[3] Iandola, Forrest N., Matthew W. Moskewicz, Khalid Ashraf, Song Han, William J. Dally, and Kurt Keutzer. “SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and 1MB model size.”; arXiv preprint arXiv:1602.07360 (2016).

[4] He, Kaiming, and Jian Sun. “Convolutional neural networks at constrained time cost.” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5353-5360. 2015.

[5] Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet,Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. “Going deeper with convolutions” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9. 2015.

[6] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. “Imagenet classification with deep convolutional neural networks” In Advances in neural information processing systems, pp. 1097-1105. 2012.

你可能感兴趣的:(机器学习算法,图像分类)