UGC内容审核及过滤机制

为什么要对UGC内容进行审核?###

截至2016年12月,中国网名规模达到7.31亿人,其中手机网民达6.95亿。越来越多的用户通过互联网来表达个人立场及宣传主张,为维护互联网环境的和谐健康以及社会环境的安定有序,需对一些传播虚假信息、危害社会稳定以及有伤社会风化的信息及言论进行监控、过滤、删除、屏蔽或关闭。
以上是出于政府监管的目的需对用户发表内容进行审核,同时网站自身出于提升用户体验的考虑,也应对带有侮辱、歧视等性质的不文明词汇以及影响用户体验的广告等进行审核过滤,为用户提供愉悦健康的产品体验。

UGC内容审核的具体方面###

基本上,凡是用户生产的内容几乎都需要进行审核,审核的内容包括文字、图像及视频等,现今还包括用户直播等形式的内容。具体包括用户昵称、头像、签名、文章、评论、IM聊天、上传的视频等内容。

UGC内容审核的机制###

对于数据量少的,可以人工审核为主;对于数据量较多的采用机审为主,人工审核为辅(机审异常或用户举报等)的审核方法。
UGC内容主要有两种审核机制:先发布后审核和先审核后发布。先发布后审核即“先发后审”,指的是内容发表后,若该内容未命中敏感词或非法词(自定义屏蔽词),则进已审核列表,且直接在页面显示;先审核后发布即“先审后发”,指的是内容发表后,所有内容进待审核列表,需人工审核后才能显示。
先发后审并非内容在发布之前完全没有审核,而是需要通过机审后才会发布显示。机审依赖于审核规则及词库的积累,受制于如违禁词、内容长度、spam等可衡量的因子,并不能屏蔽所有需屏蔽的内容,同时由于无法根据语境辨别词汇,也容易存在误杀的可能。
人工审核虽无以上机审所说的种种不足,但对于大数据量的内容审核来说,全部采用人工审核的方式显然是不太现实的,也增加了内容的运营维护成本,对于具有及时性要求的内容,如IM聊天,会造成信息的延时,产生沟通不畅的产品体验。
因此需要根据自身产品的特点来选用审核机制,以达到在优化用户生产内容体验的同时,减小内容运营维护的成本之目的。如用户昵称,可采用机审的方式,只要内容不涉及敏感词均可发布;对于资讯文章的发布,可采用人工审核的方式,审核通过后再予以发布;而对于评论内容可结合机审和人工审核相结合的方式,机审通过后即予以发布显示,机审异常或收到用户举报的内容辅以人工审核的方式。

UGC内容审核的实现方法###

1、划分用户人群进行分类审核。
根据不同用户人群,采用不同的审核方式。例如将用户分为新人(注册7天内的用户)、KOL(Key Opinion Leader 关键意见领袖)、高危用户(有过违禁记录的用户)及普通用户等,由于他们的行为特征不同,可采用不同的审核方式:
● 对新用户的个别行为或异常行为进行重点审核或单独提取出来进行人工审核,可有效过滤垃圾信息。
● KOL具有粉丝效应,收获了大批的关注,他们的大部分行为多为可信的,对于他们发布的内容可以采取先发后审的机制,或给予信任权限直接发布。
● 高危用户有较多违禁记录,且通常在解禁后不久后就又开始有违禁行为,需对这类人群发布的内容做重点审核。
在此基础上,可建立白名单用户和黑名单用户库,
2、建立机器审核规则进行自动过滤。
一般原则是用户发布内容都需要进行机审,在机审未完成前或失败后,相关内容仅对发布者可见,机审成功后,此内容对所有用户可见。
机审的具体规则:
(1)建立并完善违禁词词库,如广告词,敏感词等
建立词库编辑的后台,可增减或批量导入违禁词,并可对词语进行分类(广告词,敏感词)和分级(轻微或严重),以便对不同分类和分级的词语采取不同的处理方式。如对于内容中包含3个以上广告词的内容进行屏蔽或进行可疑提示,少于3个广告词的内容正常发布;对包含有敏感级别为轻微的内容允许正常发布,但将发布内容中的敏感词替换成或采取人工二次审核,当超过10个时,判定为机审失败,内容不予发布;对包含有敏感级别为严重的内容直接屏蔽,不予发布。
(2)建立并完善违禁号码库
用数据库将有严重违禁记录的用户及其发布内容中的号码记录下来,如系统删除、禁言过的号码或广告者的联系方式,作为数据沉淀组成违禁号码库。
(3)重复内容过滤
重复内容过滤对于限制广告内容是十分有效的,因为大部分广告发布者发布的内容大同小异,可将内容与同一用户上一条内容进行对比,10个汉字以上的若与其中一条重复率达70%(20字以上重复率达60%;30字以上重复率达50%)则弹出toast“请不要发布重复内容”;重复内容对比时需做字符串范围及去除除汉字外的无关符号,如空格、逗号等,例如“淘,宝”、“微sjenbs信”,对比时用“淘宝”“微信”,该项也适用于违禁词库对比;为规避广告用户换马甲、换文案的问题,可将用户拟发布内容与内容库或评论库中内容进行对比,如将评论与评论库最近发布50条的评论作对比,20个汉字以上的若与其中一条重复率达80%则机审失败(30字以上重复率达70%;50字以上重复率达60%)。
(4)限制用户发布次数
为降低或防止用户灌水、刷帖的行为,应对用户的发布次数进行限制,限制一名用户不可以无限制地发布内容。例如:同一用户1分钟内最多发送1条评论;1小时内最多发送10条评论,1天最多发送30条评论;评论次数超出时弹出toast“发言太多累了吧,请休息下”提示。
(5)其他限制条件
提高内容发布门槛,如用户需绑定手机号或完善资料后才可以发布内容,新用户需注册一段时间后才可发布内容等。对于有注册要求的还可以提高注册门槛,如采用邀请码等。
3、组建审核团队进行人工审核。
对于有高质量要求的内容多采用人工审核的方式,以及机审比较复杂或系统无法判定的内容也都需要进行人工审核。例如图片和小视频,由于涉及到复杂的图像识别算法,受限于技术水平条件,通常也较多采用人工审核。可以通过技术手段辅助来提高人工审核效率,如突出显示关键词或可疑信息等方式。
4、引导用户行为,培养用户习惯。
通过网站激励措施引导用户不发布违规内容和借助广大用户的力量,如建立举报、反馈机制过滤垃圾信息,培养用户举报的习惯,联合用户肃清网络环境。

你可能感兴趣的:(UGC内容审核及过滤机制)