导读: 色情视频内容已经严重危害互联网安全,色情内容常以图像和音频两种形式存在,本文介绍了基于图像和音频的色情视频内容识别方法。
全文1653字,预计阅读时间5分钟。
随着移动互联网的发展, 短视频成为人们日常娱乐的主要方式,每天有大量的用户通过互联网上传和下载短视频。但有些短视频中存在涉黄内容,这不但对青少年的心理健康产生严重影响,也是引起社会不安全的因素之一。
色情视频的内容识别是个多模的问题,包括:色情图像识别和色情语音识别。在色情图像识别领域,尽管色情图像领域有人研究,但是色情图像识别仍然是一项具有挑战性的任务。例如:色情区域在图像中占比较少,难以召回 和 低俗和色情图像从视觉角度比较近似,难以区分等难题。有些色情视频的画面是正常的,需要靠色情语音才能判别,目前没有色情语音识别的理论研究
在色情图像识别领域,常见的算法包括基于手工特征的传统机器学习方法和基于深度学习的色情图像的识别。基于手工特征的传统机器学习方法常采用的是颜色直方图,纹路信息等特征用于检测图像中肤色区域,其缺点是:无法区分低俗图像和色情图像。随着深度学习的发展,图像分类和物体检测也被用于色情图像识别,其缺点是:模型结构比较简单,解决问题能力有限。
目前没有关于色情语音分类相关理论,我们参考了语音分类相关理论。基于原始音频和一维卷积的声音模型识别,效果比较差,逐渐被抛弃基于音频频谱特征和二维卷积的声音模型识别。
为了解决视频的多模的问题,采用图像和音频两个模态来判断定视频是否色情。
整体架构包括三部分:
1、色情图像识别模型
2、色情音频识别模型
3、图像和音频两个模型结果融合
整体解决方案如下图所示:
为了捕获图像中的局部和整体的特征,我们提出来DCNet,整体结构有分类分支与检测分支组成,用来捕获图像的整体和局部信息。其中,整体结构有分类分支与检测分支组成,用来捕获图像的整体和局部信息。检测分支,相对于传统的检测网络,我们做了两个优化:
(1)采用BiFPN做特征融合,特点是:不同的feature map赋予不同的权重,同时可以双向融合,能有效的提高检测效果;
(2)任务分支采用anchor free的思想,其特点:采用fcn的思想,更细粒度的多目前检测,能够加强对小区域信息检测,同时加入中心点分支,来降低误检。
色情图像识别模型的结构图如下:
目前没有关于色情语音分类相关理论,借鉴了语音分类相关理论,常用的方法是先将音频的wav变成二维的频谱图,再将频谱图输入到二维卷积中,在此基础上,我们采用log Mel-spectrograms作为音频的频谱特征,并提出了RANet,其特点包括。
(1)将音频转化成log Mel-spectrograms特征:一秒音频对应一张log Mel-spectrogram特征图,其信息是一张二维的图像。
(2)基于tsn架构捕获音频之间的时序信息,将音频从时间维度等间隔分段,每一段提取一张特征图。
(3)采用频率attention模块捕获声音的关键信息,attention块由两个卷积层组成, 插在Resnet 网络中layer的两端。
色情音频识别模型的结构图如下:
在我们3k测试集上,模型准确率达到93.4%。
本文是作者于2021年发表与开源期刊 Applied Sciences 上的论文,现翻译了部分内容,供大家参考。
原文地址:https://www.mdpi.com/2076-3417/11/7/3066
招聘信息:
欢迎出色的C++ 工程师加入百度,与大神一起成长。关注同名公众号百度Geek说,输入内推即可,我们期待你的加入!
推荐阅读:
|百度C++工程师的那些极限优化(并发篇)
|百度C++工程师的那些极限优化(内存篇)
|百度大规模Service Mesh落地实践
|一种基于实时分位数计算的系统及方法
---------- END ----------
百度Geek说
百度官方技术公众号上线啦!
技术干货 · 行业资讯 · 线上沙龙 · 行业大会
招聘信息 · 内推信息 · 技术书籍 · 百度周边
欢迎各位同学关注