反垃圾处理(敏感词、内容审核)

你好,我是不二翔叔。

一、无孔不入的垃圾信息

现实生活中,走在大街、天桥,随处可见的垃圾,让我们感到厌恶,不仅是对环境的污染,也是对人身心的打击。在互联网内容型产品中,也是同样的道理,为了维护平台氛围的和谐,我们需要时刻与深恶痛绝的垃圾信息作斗争。

以UGC为核心的社区产品中,如果产生大量的垃圾信息,对产品来讲是致命的,会带来一系列的恶劣影响。

首先看对垃圾信息的定义,一般是指涉及黄暴、政治等很明显违规内容,那些擦边球的内容也可以归为其中(因为对平台没有价值)。

一方面,这些垃圾信息若不及时清理,很有可能被网警警告甚至封网,最终走向死亡,变成第二个内涵段子;

另一方面,这些信息如果呈现到用户面前,会极大导致用户失去对产品的信任而流失;

其次,当产品遭遇恶意攻击时,垃圾信息通常会数量巨大,对服务器来说也是一种负担,性能降低,影响正常服务。

那么,面对这些垃圾信息,我们该怎么办?或以什么态度对待?

在长期的反垃圾信息工作中,最核心的解决思路主要有两点:

①提高垃圾信息的发布成本,从源头杜绝。

因为对这些垃圾发布者而言,他们也是有利益诉求的,当成本大于收益时,他们才会放弃。

②对漏网之鱼采取针对性审核措施

下面一一阐述。


二、提高垃圾信息发布成本,从源头杜绝

首先看如何才能提高成本。

①预防机制

a.在用户ID注册时,限制注册账号的数量和频率

网站:监测是否为同一IP,限制只能注册xxx个账号

App:唯一账号(要求绑定手机号)、实名认证等手段

下面看一段与垃圾信息斗争的长期博弈过程:

“在刚出现垃圾信息时,发现发布者都是新注册的账号,我们做了紧急干预,对于新注册3天内的用户内容进行严格的检测,比如不允许发布链接,出现链接的内容先审后发。我们的机制变化后,对方也立即调整了策略,新号注册后在3天后才使用。我们调整为不论何时注册,只要是第一次发布内容,都进行检测,对方就调整为第一篇内容完全符合网站规范,第二篇之后发布大量的垃圾。审核会删除垃圾信息并封号,对方就需要有大量的账号,在注册账号时就提高门槛,比如1小时只允许同一IP注册5个账号,从通行证上就提高对方的发布成本,如此反复。”

在这里,大家肯定会有疑问,既然会被审核人员立即删掉,为什么还会不停的发信息呢?那肯定是有利可图呀,如果是网站的话,它收录在百度的权重比较高,可以说是发布不用半分钟就被收录了,而网站删除后,百度搜索还留有快照,因而在百度还会有一定的曝光。那如果是针对App,相对来说,除了平台流量巨大适合推广之外,没有太大的动力。

所谓“道高一尺魔高一丈”,上面有什么政策,下面必然会出现钻漏洞的行为,所以,斗争是一个长期的过程,不可松懈。


b.验证码

验证码的目的是将背后操作的用户和机器区分出来。

在最初应对垃圾信息时,一般是在网站上,验证码用过数字、图片,还有计算题,结果就是越来越复杂,非但没有有效降低垃圾信息,却遭到正常用户投诉。从被全民吐槽的12306验证码可窥见一二,我认为对于专业从事垃圾信息发布者是没有明显效果的。如果收益巨大,在验证码这个环节甚至可以人工识别。君不见12306眼下还是没有躲过黄牛~但作为一个提高成本的手段,可以设置验证码,但一定考虑到正常用户的操作,切忌验证码太变态。

关于验证码的具体形式和变种,这里不在赘述,感兴趣的可以去搜索。


c.发布机制改良,是先审后发,还是先发后审

对于非信任用户(新用户)和信任用户分别对待。

非信任用户一般不是平台核心用户,如果要做严谨处理,他们发布的内容是需要先经过审核才能放出来的,比如:什么值得买的文章评论需要经过审核。

何为信任用户?一个产品80%的内容主要有20%的核心用户创造,这里就需要考虑几个问题:

1.如果一视同仁,这些用户的体验必然遭到打击,如何保证着少数价值用户的体验呢?

2.如果每个人都审核的话,对平台的运营压力太大,人力成本也很高

3.平台的氛围需要及时得到保证,所以好的内容不应该受到阻塞

所以,我们可以设立白名单机制。把一部分核心用户加入白名单,也就是可信任的用户,不受任何限制,保护了核心用户的体验,同时也减轻了审核的负担,在审核时可以最后审核这些用户的内容,从而保证更快的把垃圾信息优先处理。

那么问题来了,保证一小部分人的体验,这就足够了吗?对于上千万的用户来说,太不够了。所以白名单又需要定期维护,把具有某些特征的用户加入到白名单,特征可以是注册了一定时间的,所有发布的内容是正常的,具有一定等级的用户等等,结合自己的产品可以自定义一些符合正常用户的规则,区别对待。


d.发布过程处理

在用户发布内容时,检测是否含有敏感词,如果有禁止提交。但这里的敏感词,因为是机器处理,可能会出现误判,所以需要有申诉的入口及人工处理。


三、对漏网之鱼采取针对性审核措施

即时从源头杜绝的措施做得再完善,也终究难以完全避免那些钻漏洞的内容,所以我们需要对漏网之鱼采取针对性的审核措施。

先来看看,我们审核的内容一般存在哪些情况:

①涉及黄暴、政治等很明显违规内容

②擦边球内容

③内容性质OK,但并不符合平台调性/标准

④完全ok

针对以上四种内容,一般需要机器和人工审核双重过滤。根据不同业务需求,信息量及风险权衡,人机审核比例会有所不同。下面根据不同平台的内容形式进行区别分析:

1. 文字内容方面

①使用敏感词过滤系统。

信息审核工作都是在信息审核平台上进行的,网站/产品的运营审核系统中会预先设定一批关键词库并对词组进行排列组合,这批词库又会根据敏感性进行分类。系统会阻止用户发布敏感词汇,或将用户发出来的含有敏感词的内容直接删除。对于某些敏感性较低的词汇,发出来不会立即删除,需要经过审核人员过目进行二次审核。

也可以利用一些第三方平台进行更全面的过滤,比如:网易云易盾

2)建立反垃圾信息(anti-spam)机制。

我们经常会遇到一些垃圾信息,比如邮箱中收到的各种垃圾邮件、新浪微博的僵尸粉以及论坛中层出不穷的广告贴等等。有人会不停的去寻找网站的漏洞以及规则,使用机器发布这些垃圾广告从而达到营利目的。anti-spam主要是指通过技术手段对数据进行过滤和筛选,将我们认定为不合格的数据清理掉,将系统认为可疑的信息进行提示分类。anti-spam对审核工作也是一个相辅相成的内容。


2 图片内容方面

对于图片内容的审核,传统的审核方式主要依赖于人工。图片不同于文字,无法提取关键词,对于大多数互联网公司在技术上无法达到,否则也就不会出现鉴黄师这样的职业了。

另一种方式是引导用户使用举报功能,充分调动广大人民群众的力量。目前很多带有社交属性的网站和App,都会为用户开通举报功能。用户在浏览内容中发现色情视频、图片等不良信息,可以通过点击相应按钮或者链接的形式,向管理员举报,并由管理员完成删图或者封号等后续处理。

另一种比较节省官方成本的方式为用户授权,有一些以话题为主的产品,比如最右,会专门为话题招募合适的“话事者”,“话事者”角色存在的价值在于:引导该话题下用户发布的内容调性,同时进行内容的基础审核;再比如贴吧的大小吧主、兴趣部落的酋长,都会积极维护自己所在社区的氛围和内容调性,这其实是一种转移官方成本的运营方式,对用户来说,也能有强烈的参与感和自豪感,所以值得一试。



3、视频内容方面

视频网站的内容审核工作主要有两个目的,一是合规,二是版权。其中合规问题涉及面更广,包括色情、暴恐、涉政等。当然内容还要符合商业价值的需求,比如广告、谩骂等就很影响用户体验,影响商业变现。视频网站通常都通过技术手段与人工审核相结合来完成审核工作,不管是先行过滤还是标注某些内容让审核人员重点关注,审核系统都不可或缺。非直播内容,都是先审后发。另外,举报通道和快速处理也是必备的。国内视频审核现状参考:从B站、爱奇艺、映客的IPO上市,看国内视频公司的内容审核现状

视频审核是一个难点,但视频网站要审核的不只是视频,还包括用户头像、昵称、签名、标题、标签、评论、弹幕、站内信等各种用户可以自行输入的图像/文本内容。这项工作如此复杂,审核系统需要全能、有策略、有进步,才能保证审核效率及准确性。

全能就是要通过各种算法搞定文本、图像、音频、视频等不同内容介质,以及色情、暴力等不同违规类型。这一点,人工智能的进展提供了有力的武器。参考:人工智能是如何识别一张黄图的?

策略不仅是通过正则表达式、智能算法对付内容本身,还要通过IP、终端、邮箱、手机号等信息识别用户的危险程度,进而做出不同处理,比如限制发布时间间隔。注意人工智能可以依靠,不能依赖。

进步是因为黑灰产总会设法试探并突破现有系统的防御,比如曾有一些小语种、伪低幼的攻击绕过 YouTube 审核的案例,运营人员和算法工程师需要合作不断去完善系统敏感词库、逻辑及算法。

总之,成熟的审核系统,成熟的审核团队,应用场景的覆盖,都是身经百战练成的。下面看看具体的一些措施:

任何文件都有且只有一个独一无二的MD5信息值,MD5可以说是文件的“数字指纹”。对于含有视频内容的网盘或视频网站,采取的方式是建立涉黄文件的MD5数据库,用户上传后自动分析MD5是否合法,则能避免涉黄文件的重复分享。审核人员再对通过自动检测的每条视频进行审查。

网监有一个巨大的危险MD5库,库内藏着各种不能流于世的视频。视频网站都需要接入这个库,并在实际审核中增加自己的库存。

通过MD5之后的视频,第二步会经历机器审核的过滤。机器审核视频同样是基于深度学习图像识别云,实际也是将视频截图,由机器审核每一张截图的安全性。不过具体是3秒截一张还是5秒截一张,松紧度由视频网站自己控制。

对于不能通过的视频,机器审核视频会给出两类结果:

确定不能通过的,这类的准确率几乎能达到99.5%以上;

仅作参考的,准确率在95%到97%,这可能意味着该视频需要再次进行人工审核。

从整个行业来说,机器基本能筛过99%的视频,只有1%需要再次动用人工。如果是150万的视频,那人工只需要审核1.5万个。

对于像优酷、爱奇艺这样的大型视频网站采取的是先审后发,而且更突出的是PGC部分的内容。然而在国内,多数UGC都是“先发后审”的,尤其在直播/短视频领域,强调草根主播,强调时效性。

由于每天新产生的内容量太大,为了减轻审核工作,他们也有很多窍门,比如短视频领域中,会对新用户和高危用户的上传会优先审核,是“重点关注对象”;

明星、大V等账号会被设置成为信任账户,默认他们发布的视频不用通过审核。

在系统方面,则会建立反垃圾屏蔽系统,记录用户行为、关键词、头像MD5识别等进行用户和垃圾拦截;

对于直播领域,则会要求在画面播出前完成机器审核(直播一般会有5-60s不等的延迟),避免“造人事件”再次发生。



4、音频内容方面

有一些是语音为主的直播节目,比如谈话聊天、脱口秀、在线广播等。视频检测所使用到的图像技术就很难在这些应用场景发挥作用,所以音频检测需要有针对性的审核。

①关于如何杜绝广告、黄赌毒等

这时候就体现语音审核的困难了。个人觉得,静态的内容,比如文字、图片是最容易审核了,熟练了以后真的可以一目十行。

现在每天看首页文章,跟纠察队一样,一眼发现广告。

视频也稍微好点,因为有画面和字母,根据情节的走向,可以大致推断剧情发展,掌握套路以后,可以大段大段的跳过。

音频,因为只靠声音分辨,只可以一点一点前进,所以消耗的时间比较长。这就是为什么,作者会说最难的审核方式就是音频吧。

②审核音频的不同点在哪里?

分为两个方面,审核音质和内容。审核音质,音调是否一致比较平稳,不会突然特别高亢,给听者造成不适感,只要发现在开头、中间和结尾保持一致,就比较好判断。音色是不是比较好听,如果太难听的声音,再见噢~

审核内容,就跟我们审核文章差不多。从标题和开头概括,可以知道整体的方向和选题,做基础判断。

③音频审核技术

音频可以分为有内容和无内容两种:说话内容相关的包括说了什么?(涉政、涉黄、涉赌还是广告信息),另外还可以从说话内容来判断语种以及说话人的辨识;此外还有与说话内容无关的信息,例如特定录音片段、歌曲旋律、环境音等等。

针对不同的数据类型有不同的检测技术。针对说话内容有语音识别、关键词检索等;针对语种的判别有语种识别的技术;针对说话人的识别有声纹识别技术;针对说话内容无关的通常采用音频比对的技术来进行检测。

语音识别的关键技术——声学模型

语音识别的声学模型主要有以下两种:混合声学模型和端到端的声学模型。

混合声学模型通常是隐马尔科夫模型结合混合高斯、深度神经网络、深度循环神经网络以及深度卷积神经网络的一个模型。

端到端声学模型目前有两大类,一是连接时序分类—长短时记忆模型,二是注意力模型。

声学模型:

声学模型——混合高斯—隐马尔科夫模型

声学模型——深度神经网络—隐马尔科夫模型

声学模型——深度循环神经网络—隐马尔科夫模型

声学模型——长短时记忆模型

声学模型——深度卷积神经网络—隐马尔科夫模型

声学模型——连接时序分类—长短时记忆模型

声学模型——注意力模型

语言模型:

语言模型——N-Gram

语言模型——DNN-Gram

语言模型——RNN-Gram

以上,涉及到音频识别技术都比较专业,此处只是网上摘抄部分概念,我也不是很懂,具体的需要查找相关资料作深入研究。



扩展1:人工智能审核方式

当然还有种最新的使用人工智能技术的审核方式,目前市面上已经有成熟的第三方公司提供API接口,如云净网提出的内容安全管控体系,通过信源、信道、信宿三方面分析,对信息内容进行分类管控,即UGC管控、即时消息管控、视频图片管控;从违规文本识别引擎、违规图片识别引擎、异常行为分析引擎、风险决策引擎四项技术,对平台数据进行整体分析。利用安全大数据用户行为分析及语义分析,对内容载体进行控制。


扩展2:行为预测模式构建

经常生产垃圾信息的用户一般都有某些共性,这些共性一般有两类:

状态:比如昵称普遍符合某些规则、简介/签名里面带有营销推广词汇、头像是二维码等等

行为:喜欢在特定时间点发布内容、批量操作、停留时长很特殊等等

有条件的情况,需要针对这些数据进行建模处理,构建垃圾用户的画像,并引入机器学习算法,方便后期进行智能监测。


总结:

①反垃圾处理是一个长期斗争的过程,需要不断利用先进的技术结合巧妙的手段来跟进,最终目的都是为了降低人力成本,保护平台生态和谐;

②反垃圾处理的过程中,需要针对特殊情况及时调整策略,时刻注意,不断优化审核机制,修补漏洞;

③对于那些不合规的用户,要及时进行针对性处理,给平台其他用户一个及时反馈。

我是不二翔叔,欢迎关注我~

你可能感兴趣的:(反垃圾处理(敏感词、内容审核))