为什么视频异常分析是最适合互联网时代的内容管理工具?

信息爆炸——互联网时代的内容管理难题

人类历史,经历过多次内容传播方式的大变更,这些变更改变了人与人之间的关系,改变了人对世界认知的方式,也最终改变了人在内容传播链中的角色。

曾经,甲骨文只在贵族内部使用,贵族阶层从而垄断了知识。直到竹简的出现打破了这种贵族垄断,竹简的大规模使用也促成了后来百家争鸣的出现,平民得以第一次触达到精英们的思想产物。后来,造纸术的发明更是大大降低了信息传播的难度和成本。纸的普及让内容可以被相对便利而低廉地大量复制和分发,旧时王谢堂前燕,得以真正地飞入寻常百姓家。当然,后来又有广播、电视的出现,这些载体让内容更为“有声有色”,也进一步降低了对于内容消费端的门槛要求——打破了人接收内容需要“识字”的壁垒。

为什么视频异常分析是最适合互联网时代的内容管理工具?_第1张图片

但所有这些的变更,都没有跳脱出知识和内容生产的垄断,直到互联网自媒体时代的到来。这一次,内容生产端的壁垒也被打破,每一个人,都可以既是接收者,又是表达者。很快,信息开始呈现指数级的爆炸。人们刚刚脱离内容匮乏之困不太久,便迎来了内容过剩之困,大量内容鱼龙混杂,人们面对这种复杂性经常手足无措。于是,新的难题被提出,这便是互联网内容管理。

我们的思考与判断

互联网内容管理的第一层是内容的管控,即互联网内容安全;第二层是内容的理解和梳理,这两层能力依托的都是对于互联网内容的多维和深入的理解,其特征是理解维度全面、梳理粒度精细,其目标是内容处理可控、内容推荐精准、内容使用便利。

为什么视频异常分析是最适合互联网时代的内容管理工具?_第2张图片

难以根除的「异常」内容,推动互联网视频异常分析技术不断进步

首先是内容的管控。互联网的内容管控历经几番变迁,对于有害内容的处理,已从强调溯源打击转变为强调第一时间切断有害传播并迅速进行有效精准的屏蔽和清理。

是与非,善与恶,从物理世界到网络世界,对抗和交战从未停止,但对抗的本质正在改变。在纷繁复杂的内容背后,威胁并非一定来自某个想毁灭世界的疯子,相反,在很多时候,威胁潜伏在看似平凡的日常生活里。然而,这种“无意”却汇聚成了恶,有时甚至是极大的恶。

甲子光年曾发表文章《儿童邪典视频背后:始作俑者是谁,“帮凶”又是谁”》,详细分析了2018年曾引起大范围舆论关注的“艾莎门”(Elsagate)儿童邪典视频事件。在文中,作者将儿童邪典事件的主因归结为“无主之恶”。

“无主之恶”有两层含义:

恶的源头十分分散,它表现为高度信息化社会中一种特殊的协作和传播模式:“Stand Alone Complex”(孤立个体集合体);

促进恶发生和传播的机制,最开始被设计出来时是中性,最后却“事与愿违”地酿成恶果:在“艾莎门”中,流量经济+智能推荐算法成了侵害儿童的帮凶。

大量的儿童邪典视频,被冠以“公主”、“迪士尼”、“米老鼠”等儿童喜爱的题材标签,堂而皇之地出现在各大视频网站,并被算法自动归类在儿童频道。由于视频标题和内容粗看与普通的儿童动画差异不大,父母也未仔细留意,然而这些视频充满暴力、血腥、性暗示等危害儿童心理健康的内容,等发现时,儿童往往已深受其害——表现为对视频观看上瘾,不看即情绪暴躁。这些喜爱观看邪典视频的儿童,在视频网站的用户画像被贴上这个喜好的标签,推荐算法进而一次次加强了这种正反馈,从而一步步加深儿童的成瘾性。

为什么视频异常分析是最适合互联网时代的内容管理工具?_第3张图片

诚然,这一类视频的制作者和传播者有一些是用心险恶的,但也有不少比例的制作者的初衷是想要拿到好看的用户观看时长数据从而跟广告商谈个好价钱,有的传播者是主动作恶,也有的可能是因为猎奇和审丑的心理在作祟。

作恶源头无论在时间、空间还是动机上都是分散的。所以,面对有害内容,溯源不是第一位的反应,迅速发现并及时切断传播才是最关键的。毕竟,在互联网上,各种源头的有害内容,在散落于各处的大量用户无意识的联合下,在各大网站均已普及的内容推荐算法的放大作用下,其危害比以往的任何一个时代都更为迅猛。

如何迅速发现有害内容并及时切断传播?靠用户举报?靠大量人工去把关内容做审核?太多的数据事实和案例都在告诉我们,这个时代,面对新的传播方式和路径,内容管控也需要更聪明和更人性化的解决方案。

为什么视频异常分析是最适合互联网时代的内容管理工具?_第4张图片

靠用户举报不用多说,滞后太严重。那么靠人工审核呢?

首先我们需要知道互联网上的内容的量级。1. 据不完全统计,当前国内互联网每天产生的数据量在0.5EB(1EB = 10243GB)左右,每天成亿上兆的图像视频在互联网上散播一个。2. 仅在YouTube上,全球平均每分钟就有长达 400 小时的视频被上传。这么多的内容,纯人工审核是绝对审核不完的。所以视频网站的大部分审核由程序根据文字描述和截图识别完成。如果发布人员在提交视频时精心伪装,很容易就能蒙混过关。有疏漏是必然的。

其次我们需要知道长时间观看有害内容对审核员的身心伤害。据专家预计,约50%的Facebook内容审核员都可能出现心理健康问题。Facebook也因此向现任和前任内容审核员们支付5200万美元的赔偿金,以补偿他们在工作中出现的心理健康问题。

正如猎豹和羚羊的协同进化一般,一些技术的发展,给我们带来新困扰的同时,另一些技术的发展,则给了我们解决困扰的力量。

闪马在攻克的正是最难的视频内容审核。依赖基于深度学习的视频内容审核技术,我们可以做到精准过滤99.5%的有害内容,节省85%的人工。当然,这一过程仍然需要人的参与,但人可以从繁重的实时审核任务中解放出来,更多充当“算法的老师”这一角色。因为算法可以不断“学习”人类,对人工标注好的图片的特定内容进行分类学习并训练迭代,审核的内容越多,算法就越火眼金睛,应用效果就越好。

以闪马内容审核算法为例,从“智障”到初级审核员水平,我们喂了算法几百个TB的数据,到如今算法更是历经多年迭代,单次训练就是几百万张图片的量级,水平超越绝大多数的人类审核员,效率和可靠性上的优势更为明显,毕竟机器不会疲倦。

为什么视频异常分析是最适合互联网时代的内容管理工具?_第5张图片

所以视频内容审核技术发展至今,已能帮助人们更细致更高效地审核视频内容,从而及时发现有害内容并阻断传播,并且这种阻断是更为精准有效的,不是粗暴的一刀切——比如因为Elsagate 而清除所有带有“艾莎”标签的视频。毋庸赘言,这样的能力正是基于算法对于内容的理解上是多维的和深入的。

在有害内容有效阻断之后,我们可以利用跨平台信息交叉串联溯源技术来顺藤摸瓜找到作恶源头。

化零为整 ,「视频分析」建立这个时代最大视频资料库

互联网内容管理的第二层要义便是内容的梳理从而实现内容资源利用上的游刃有余。

都说如今是“内容为王”的时代。我们认为,内容为王,不意味着内容获取越多越好,因为现在内容越来越泛滥,人们很容易从其他地方找到类似的东西。相反,能够真正理解内容,能够把内容进行有效梳理,包括分类、精炼提取、把不同出处的内容有机联系起来等,才能“盘活”已有内容以及快速定位匹配需求的内容,才能真正决定内容仅仅是内容还是真正的资产。

内容的形式又分为文本、图片和视频。视频是所有内容形式中维度最丰富的一种。如今,随着智能设备的普及和网络基础设施的发展,视频在媒体中以及人们的日常交流中有着日益重要的作用。在这种时代背景下,人们就开始去研究如何理解、识别、分析并挖掘和利用海量视频里的这些内容。

要利用好视频内容,首先是要有视频内容的理解,内容的理解又分为几个程度:

一、基础识别

应用场景:自动打标签、场景标注、自动字幕等

技术手段:人脸识别、场景物品识别、语音转文字、文字标签提取等

对于一个视频,我们其实是从多个维度来理解和描述它的内容的。一个维度是整体的观感,也是我们的第一反应,那就是它的色调、纹理、风格、画质如何。然后,我们需要了解这个视频涉及到哪些场景,里面有哪些人物,这些人物的特征是什么(包括性别、年龄、特征、服饰、是否是名人等),里面又有哪些物品等等。然后再进一步还有更深层次的对视频内容的识别,比如人物的行为识别。

为什么视频异常分析是最适合互联网时代的内容管理工具?_第6张图片

二、组合识别

应用场景:自动打点、智能剪辑等

技术手段:镜头拆分、关键镜头识别、特征场景识别、视频片段整体调性识别

在对视频做了基础的识别之后,下一层次就是对于视频片段的整体理解,比如我们说一个片段的内容是悲伤的,对于“悲伤”的识别不是看单个画面、某个词、某个特定的物体,而是一个整体的概念。另外,视频的整体理解也需要把识别的内容有机串联起来,比如不仅仅知道有人在跑步有人在跳舞,有公园、马路,还要知道,什么时候有什么人是在马路上跑步,什么时候有什么人是在公园里跳舞。做到这个就需要将视频的内容标签按照语义串起来,能够用包含时间、地点、人物、做什么动作这些基本元素组成的一句简单的话来描述一个视频里的事件。

三、高级理解

学术上更前沿的方式是像人一样用自然语言来描述视频的内容。比如李飞飞团队提出了密集事件描述任务,要求模型能够生成一系列对于视频中出现的多个事件的描述,并且在时间上对他们进行定位。这些事件在视频中多数有独立的起始和结束时间,有时候也会同时出现或在时域上互相覆盖。如果说通过组合识别,算法可以这样描述视频——某一时刻,一个女人在室内唱歌,旁边有钢琴,那么用自然语言描述视频,将会是这样——视频中某一时刻,“一个女人开始配合钢琴家唱歌”,过一会儿,“另外一个男人在跟着音乐跳舞”。

当然,这种方式离真正在生产生活中应用还有很长一段路要走,但未来可期。

视频内容有效应用的第二个要求是内容可检索。

当前应用最广泛的内容检索手段是关键词检索,正在逐步普及的是以图/视频搜视频。前者很好理解,利用搜索关键词跟视频库的视频内容标签做相似度匹配。后者需要建立专业的视频搜索引擎,用户通过输入图片或视频后,先对输入的图片/视频做内容识别,然后根据对输入图片/视频的识别结果,在视频库中快速检索到与输入视频相似的视频片段。

以图/视频搜视频这种方式对于搜索性能的考验是很大的。因此,闪马面向这种搜索场景做了大量工程优化,全链路打通性能瓶颈,来保障搜索又快又准。

有了对视频内容的多维度和深入的理解,以及对于内容的快速而精准的检索之后,视频内容的精准推荐、内容的提炼、内容的素材的随取随用等等这一切就是水到而渠成。这些技术助力人们做互联网内容的真正的主人。

结语

茨威格在《人类群星闪耀时》这本书里写下这句话——“只有一件事会使人疲劳,摇摆不定和优柔寡断。而每做一件事,都会使人身心解放,即使把事情办坏了,也比什么都不做强。”我深以为然。每个时代有每个时代的难题,但每个时代也有每个时代的幸运,也许面对这些难题,我们一代人也只能前进一小步,但这一小步的前进,就是我们这代人的骄傲,Just do it!

你可能感兴趣的:(为什么视频异常分析是最适合互联网时代的内容管理工具?)