事件背景
Elsagate并不是近期才有的事件,早在2016年就有机构或公司将凶杀、绑架、怀孕、注射、互相殴打、血腥、暴力等不宜儿童观看内容以Elsa、蜘蛛侠、米老鼠等卡通形象,录制成动画或真人演出,并上传至YouTube。由于动画片《冰雪奇缘》巨的大知名度,该组视频最初就叫《Elsa Gate》。2017年3月,此事件在欧美媒体发酵,到11月,YouTube宣布已删除超过 15 万个视频,查封超 270 个帐号。但是时至今日,YouTube上依然能轻易搜索、或推荐得到相关内容,并且最早发布该内容的“Webs and Tiaras”频道依旧在更新。
2018年1月16日,微博博主@肉呆大魔王发布了翻译的长文《一群变态锁定观看YouTube的孩童,我以前为他们工作》,该事件被国人所关注,一时间各大社交网站和资讯平台都对Elsagate这个话题展开了讨论。2018年1月22日,北京文化市场行政执法总队下发紧急通知,要求查禁“儿童邪典视频”,相关内容一律下线。扫黄打非办公室官博也发布了相关通知,各大平台相继发布声明,并对其进行筛查、删除和下线。目前各主流平台相关搜索均已无结果。从当前处理效果和效率上看,必须点赞我大天朝处理此类事件的超强执行力。
本文并不从国家制度文化背景等角度探讨这个事件的起因和影响,而是希望从这个事件出发来讨论下推荐系统的局限性。
推荐系统的基本组成
无论是搜索还是推荐,本质上都是信息过滤系统,都是帮助用户解决信息过载的问题,二者的区别在于前者蕴含用户主动获取信息,后者则是用户被动接收信息。从海量“内容”中抽取对用户有价值的进行呈现。这里的“内容”可以是一篇文章、一段视频、一个商品、一本书……可以统统管他们叫“物料”。
当然,上述定义是从用户的角度来说的。如果从另一个角度:“物料”的角度来看待,情况可能不太相同。对于物料而言,如何从平台获取更大的流量是至关重要的,理论上每个平台的流量都是有上限的(受到活跃用户数、在线时长、点击转换率等因素的影响),那么与对手(其它物料)进行竞争,获取更大的曝光甚至点击,就成了物料生产者(尤其是商业用户)极其关注的问题。这也是竞价排名、商业投放等模式存在的依据之一。
如何分配流量成了各大平台争相研究的关键课题。推荐因为用户对信息的被动接收性,天然具有了这样的优势。对于平台(尤其是内容平台)而言,推荐系统能起到正向促进物料的“消费 + 生产”生态的作用:一方面通过推荐提升内容消费,让用户有更多的存留、点击、停留时长……另一方面,通过推荐令物料得到更多的曝光和流量,鼓励生产者提供更多更优质的物料。
一个典型的推荐系统通常由挖掘、召回、排序三部分构成:
【挖掘】是推荐系统的离线部分,一个主要的功能是对平台所拥有的物料进行筛选,过滤掉那些不适合被推荐出去的内容,例如:涉黄、涉恐、反社会、垃圾营销等等;另一个重要的功能是对能够作为候选集的内容进行特征化,为后续实时计算做准备。挖掘的结果(筛选出来的物料以及提取的物料特征)被建立索引,构成线上的候选池。
【召回】和后面的排序都属于推荐系统的在线部分。召回部分负责从不同的候选池检索出若干物料,相当于从大的池子里面先捞出少部分可以分配给当前这份推荐流量的物料,这个“捞”的标准与推荐的场景和召回的算法有关。
【排序】是与优化目标有关的部分。通常平台会希望将用户最可能产生消费行为的物料排在最前面,而平台对消费行为的定义决定了优化目标,比如将消费行为定义为用户点击推荐的物料,那么优化目标就变成点击转换率(点击数/推荐曝光数),通过预测一个物料在当前场景呈现给当前用户而被点击的概率,基于这个预测值来排序,取其TopN形成最终的排序列表。常见的优化目标还有消费时长、持续消费率、有效点击……
推荐系统的掘、召回、排序三部分就像是三个漏斗一样,共同完成了“信息过滤”的任务。当然这个模型是对推荐系统的极度抽象,不同平台的设计和实现均不相同。但基本上都会包括这三个部分。
推荐系统的局限性
从推荐系统的漏斗模型上看,一条物料想要pk掉对手“竞争上岗”,在三个漏斗中都需要胜出。三漏斗层层过滤既保证推荐结果的质量,也满足用户的需求,同时对优质的物料生产者提供更大的流量。
不过现实是残酷的,推荐系统在三层漏斗上都存在自己的局限性,这种局限性会被一部分生产者所利用,不分好恶地从中攫取流量红利。
第一个局限在于挖掘阶段的对垃圾物料的过滤能力上。通常这部分依靠“机器 + 人工”的方式进行,机器基于启发规则以及机器学习模型对物料进行判别,一部分命中过滤规则(例如敏感词表、用户黑名单、正则表达式等)的物料能被直接清理掉,另一部分被算法识别出来可疑度超过一定阈值的物料会被送到后台进行人工审核。
但是启发规则的制定依靠的是人的经验,覆盖度有限;而机器学习模型则需要相应的标注样本,尤其是对于类型丰富多样的垃圾信息类型而言,样本的获取非常耗时费力。对于一些信息量丰富的载体(如音频、图像、视频……),识别计算的成本和误检率会极大提高。别有用心的生产者将真实的意图隐藏到这些富媒体中,能降低被过滤掉的风险。另外,无论是人工制定的启发规则,还是通过样本学习出的算法模型,都是针对已发生的类型之上,机器本身并不具备主动发现垃圾物料类型的能力,因此识别和过滤也都存在滞后性。
第二个局限在于召回计算中的马太效应,通常推荐场景可以分为两类:有上下文和无上下文两种。前者类似于看了又看,在用户当前正在消费某个物料的时候推荐与该物料相关的其它物料,用户当前所消费的物料(上下文)作为本次召回计算的依据;后者类似于兴趣推荐,用户当前并没有消费物料,不存在上下文,这个时候就需要根据用户兴趣,推算哪些物料是该用户比较可能产生消费的,进行召回。
无论是有上下文还是无上下文场景,召回本质上都是依据用户的消费行为进行的(无上下文场景中的用户兴趣本身就来自于过往采集的用户消费行为)。这种由鸡生蛋、由蛋孵鸡的过程,一定程度上会使得推荐结果越来越集中,尤其是容易集中在几大高频的物料类别之上。一方面用户信息接受的类型范围变窄,另一方面也使得内容生产方更偏向高频物料类型。这也能解释在某些以推荐为主的内容平台上,大家会觉得内容越来越单一。
Elsagate产生这么大的传播和负面影响,一定程度上正是召回计算的马太效应造成,在相关性计算中搭了热门卡通内容的便车。
第三个局限在于排序计算的唯转换率论。排序的依据是最优化计算,可以理解为针对召回的物料计算一个最佳的排序,并且取其TopN形成最终的推荐列表。这里“最佳”的含义是带来最大的推荐转换率(消费-曝光比)。这个计算仅仅对平台收益负责,并不关心这种“高转换率”背后引起的原因,也并不能区分是否会带来负面传播效应。
YouTube推荐以播放时长(Watch Time)为优化目标。Matt Gielen 在2016年有篇博客用逆向工程的方法分析了YouTube推荐排序的因素,结论是与Watch Time直接相关的因素重要性占85%以上。(http://www.tubefilter.com/2016/06/23/reverse-engineering-youtube-algorithm/)
无论是Elsagate,还是现在各大内容平台的标题党、搬运党、三俗党……配合当前的各种刷榜、刷评论、刷赞、刷单……,都是在试图利用推荐系统的局限性,获取更多的流量,它们的目的未必是传播不良信息,但事实上却可能造成很坏的社会社会效应。
目前来看,这种局限性无法苛求推荐系统自身完全解决,一方面需要在设计推荐系统优化目标时,不单以转化率为唯一优化方向,从挖掘、候选策略、排序优化等方面引入新鲜性、多样性、推荐覆盖等,甚至在必要的引入一些微扰,带来一定的不确定性;另一方面人工运营的参与非常有必要,完整的审核流程,运营标注闭环,机器辅助人工的作业规范等,不仅仅能弥补机器不足,而且能通过人工引导机器学习的方式提升机器的分析处理能力。至于具体怎么做,需要具体问题具体分析,也是另一个话题。