【i技术会】2020.03.12
《常用视频广告算法经验谈》分享会
在视频平台上面,广告出现的位置很多,包括开屏广告,信息流,各个位置的banner等。在这些广告中,视频播放器里面出的广告,跟AI的关系比较大,因为涉及到视频的内容,需要AI分析视频内容,给出广告点位的建议。
先来看一下,下图是我列举的关于物理世界和网络世界的广告对比,左边是我们经常可以看到的在真实世界的广告,比如说左上方在商场里的餐厅广告,在飞机上面针对商务人士的广告,在电梯里面,在公交车上都有各种各样的广告。
右边我们可以看到的是常见的网络产品,比如说社交信息流,资讯类的信息流,电商焦点图,我们很熟悉的这个搜索广告等。
我们把这两种广告放到一起对比的时候,会感觉到左边的广告实实在在融入了物理世界,跟周围的建筑、交通工具是融为一体的,是一些非常真实的点位。但是我们没有办法去凭空创造一个物理世界,我们要做的是把这些广告牌、海报放到物理世界当中,找到合适它出现的点位。
网络世界在不同的场景下,有不同的信息排列组合方式;针对不同的信息,也有它可以适应的相关广告形式,所以说在网络上面我们可以看到各种各样的广告。
物理世界加上网络世界,一定程度上可以代表在线视频的特点,就是它一半是真实的世界,一半是虚拟的,它真实的部分来自于视频本身(此处讨论的视频是指实景拍摄的视频,比如我们常见的电影、电视剧、综艺,包括用户用手机、用摄像机拍摄的一些UGC的视频),是真实世界的反映。
另一方面,虽然说记录了这些信息,是通过摄像头实景拍摄的,但是因为它通过网络在线播放,所以它跟真实世界是有很大的区别,比如说可以倍速播放、暂停、加弹幕,甚至可以把不清晰的视频变得清晰、在这个视频上面去增加各种信息。它具有了这样一个虚拟的性质,一半真实,一半虚拟,这可能是关于在线视频和广告相关的,我们需要一直记住的两个特点。在视频内的广告点位,我们也一直会针对这两个特点,去探索适合它的广告点位的生成和挖掘。
想一下,在视频里面什么地方可以出广告?从某种意义上说,广告是对内容的一个插入,不管是真实世界放入一个广告牌,还是在信息流里面插入一个原生广告,或者在视频的片头、片中插入一个广告,插入的位置我们给它一个名字,称之为点位,所以广告都是放在点位上的。那当大家在看视频的时候,可能会思考一般会在什么点位看到这些广告。
我所从事的工作主要是通过算法分析理解视频,然后这些结果可以去支持各种业务,包括在广告上的应用,我把一些比较主要的视频内的广告形式,大概分成这三类(这个分类可能和业内分类不严格一致)。
第一种是贴片,就是对视频的插入,一个全屏的展示,它没有空间概念,它是占据了整个空间,所以只会选择它插入的时刻,一般来说在片头、片中或片尾都可能插入。那这类广告它本身可能就是一个独立的广告素材,比如说广告商拍的tvc,那这类广告并不一定需要跟视频内容有任何关系,由于它是一个全屏展示它会非常的明显;此外因为跟视频没有关系,所以它的灵活性或者说虚拟性是非常强的,以贴片的方式可以去插入到任何的视频中。
上图中间这个广告,叫做浮层,它是浮在视频上面的一层广告,浮层广告的点位除了时间上的选择,还有空间上的选择,这个浮层它出现在什么位置,左上角?右下角?还是出现在正中间?还是在其它什么位置?此外,在时间上的选择,因为广告是出现在视频里面的,所以要考虑和这个视频是否有一种相关性,如果没有相关性,广告插入会不会太突兀,会不会引起用户的一些抵触?
上图最右边是植入广告,这里列举了在最前端的咖啡杯。植入广告,需要让这个广告和视频里面的世界融为一体,所以既要做时空上的选择,也要有一种合理性,比如说这个杯子会放在桌面上,而桌面上不会放一个汽车,也很少会放一个足球,这是它的一种合理性,同时还要保证一个融入的效果,就是要有一个符合物理世界的光照、阴影、透视关系等。
所以,我们看到上图的这个双箭头,越往右边,越让广告跟视频融为一体,它的真实感是越强的。越往左边,独立性越强,那它的虚拟性越充分,广告本身也会更加的显著。
贴片广告
贴片广告我们可以把它大致不严谨的再分成两类,第一类是一个纯粹的广告,只管把它放在片头、片中或者片尾,这个广告不用考虑跟内容有什么联系,这也是大家非常熟知的.可能自从有了视频广告模式,就一直看到这种广告。
近几年,一方面面对用户,需要考虑怎么让这个广告的体验更好,另一方面对品牌主,也希望怎么能够赢得用户更多的好感,来提升这个品牌的形象。整个行业开始有各种创新贴片广告,比如说请剧中的角色来录制一段大头贴,或者是用剧中的角色、剧中的形象、剧中的场景一起来拍摄一段比较有意思的短片,这类广告叫做原创贴。包括这一两年,开始做的前情提要贴,就是我们对于电视剧可以去生产前情提要,然后在前情提要上面可以加上广告。
可以看到,即使是对于相对比较传统的这种贴片,广告也开始跟内容有了一些结合,考虑到了如何去形成一种比较自然的融入。
关于浮层的点位
传统的浮层,比如角标、片头鸣谢、字幕等等各种各样的形式,还有很多这里面没列举的。最近几年也开始出现内容相关的浮层,比如下图中这个创可贴,这是一个吃饭的场景,吃饭的时候可能需要喝饮料,所以说推出了某品牌饮料的广告。
这个浮层可以看到它自由度是比较高的,可以出现在各种位置,但是最重要的是它有一个时间的选择,就是结合剧情出浮层,所以它比较好利用了在线视频的虚拟特点,可以在真实的物理世界视觉画面上,加入虚拟的一些信息。
那关于内容相关的浮层,其实主要考虑的是,我们怎么提供跟当前内容比较自然的场景化的一种广告。
植入广告
对于植入,大家应该非常熟悉,甚至有时候会觉得在看穿插在广告当中的电影和电视剧。当然在综艺上面这种植入也是非常普遍,因为对于综艺形式的节目来说,是比较容易做植入的。
视觉上可以做实物的植入,比如说摆放一个汽车、一个商品的模型,或者一张海报,只要能够在这个视频画面当中看得到,就能引起大家对这个品牌的关注。
其次是语音植入,下图中间这个画面,可以看到某主持人语速非常快的广告播报,本身就带有很好的话题性。
不管是实物植入还是语音植入,以前常见的都是在拍片的时候做植入,拍摄前期跟导演、演员商量好,跟品牌方一起去设计,在什么地方摆上一个什么样的商品,或者说口播什么样的广告内容。
现在我们也开始逐渐去做一些后期植入,当片子拍完之后,不管是通过算法还是人工去找到适合植入的点位,然后去利用算法,利用一些工具把商品的信息放置在这个视频画面上。
上图最右边就是爱奇艺之前播放的一个综艺节目,我们也是植入了这个广告主的一个海报。
这几年后期植入变的越来越多,虽然还不是非常普遍,但是后期植入是具有非常高的灵活性。虽然这个场景是完全真实的,它体现了物理世界的真实性这一面,但是因为是后期植入,也是把虚拟的信息放置进去,所以说带来了一个比较好的灵活性。一个片子已经开始火起来之后,可能有更多的广告主可以去做这样的后期植入。
到底什么样的广告点位是好的?
如果要回答这个问题,首先得看什么样的广告是好的?当然一个好广告会有非常多的因素,比如要怎么吸引人的注意,要有创意,要有趣,还能体现品牌价值等等,这里列举了跟AI分析关系比较大的三个方面。
第一,有用。用户看到广告之后知道这个商品是有用的,尤其如果能知道对自己有用,就是达到个性化的分发,那这显然是非常好的效果。
第二,自然。广告的出现要合情合理,因为广告是对一个完整内容的插入,尽量避免一些非常生硬的插入,想要降低用户的抵触情绪,需要尽量把它做的自然。
第三,显著。显著跟自然也许有一些矛盾,如果广告太自然可能它不显著,如果比较突兀,那可能很容易引起人的注意。这确实是一个矛盾,这也是需要去权衡的点,既希望广告要被人看到,但同时也要保证必要的用户体验。
针对这三点诉求,那什么样的点位是好的广告点位呢?把这个视频想成一个持续不断的信息流,那到底在第几分几秒,画面中哪个位置,可以去放置这样一个广告,这是我们需要思考的。
从有用角度来说,广告出现的时间,最好能够体现消费或者使用广告商品的一种场景。为什么有这样的一种想法呢?在真实世界中出现广告的时候,比如户外广告,公交车上的广告,或者公交车站各种广告牌、灯箱的广告,其实很少会想到适用场景。因为真实世界广告出现的这些地方,缺乏故事情节,比如公交车上的广告,不太可能根据看广告的人或者公交车上正在发生什么,然后去给出相应的广告。
但在线视频广告中,它天然就具有可智能相关的条件,因为视频都是带有一定情节的,比如就像刚才看到的视频中的吃饭场景,吃饭的时候需要一些什么,需要饮料、餐具等等。所以,这是视频广告的天然优势,因为视频自带情节,它有很多广告商品的使用场景,所以我们也在思考,怎么能够找到这样的一些使用场景,把这些使用场景作为出广告的点位。
第二个诉求就是自然,怎么让广告出现的时候,让人觉得是有一定道理?这种道理既来自空间上的合理性,如果后期植入广告,那么展示的商品看起来光影、光照是要符合视觉规律的,同时能够具有相关性,能够让用户大概感受到;比如说,推荐一个衣服的商品,那正好是当前视频当中的一个同款,让大家觉得这是有道理的。
第三个就是显著,点位如果它能够大面积出现,同时它又不会去遮挡视频当中的关键内容,那是有价值的,如果这个点位出现的比较早,那可能也能够有更多的人看到,这也是有价值的。
对于广告点位AI能够做什么
第一,做识别;第二,做生成
识别就是要理解视频的内容,能够知道在什么地方找到这些有用、自然而且显著的广告点位。
生成是在我们能够找到的这些点位之外,还要创造一些点位。比如前情提要,可以用AI剪辑自动生成,然后把它安插在这个视频的前面。那这个前情提要本身就是一个广告点位,贯穿前情提要的这十几秒钟可以放置广告。
关于识别框架,下面这张图展现的是对于视频理解的简单示意,整体上可以认为,最左边是视觉音频文本信息,会对这些信息做从粗粒度到细粒度的识别分析;有了分析结果,把它做语义的推理,来得到更上层的结果。
视频理解算法是由很多类别组成。比如一个三元组,谁在什么地方做什么事情,这个地方是否有精彩情节,这个空间结构是什么样的,这都是考虑的类别。
在做算法时还有一些策略。比如说视频的时间连续性怎么去利用,这其中算法又有很多类别,类别之间的关系怎么利用,有助于提升每一个类别的精度或者召回?尤其是召回,就是怎么能够为广告业务提供尽可能多的点位,这个召回策略怎么做好。
有了算法输出之后,AI还需要一个系统来支持广告投放,通过这个系统把最后优质的点位输送给广告系统。这个系统在工程上面会有一些考量,比如怎么去考虑业务的时效性和资源之间的权衡,如何人机合作,怎么有效的通过Demo进行创新点位探索。
模态
首先从模态上来看,视频主要有三种模态
一是视觉,视觉的信息量非常丰富,可以认为看视频,大部分的信息来自于视觉。同时视觉信息的识别难度也是比较大的。现在在某些视觉垂类上面,能够达到非常高的精度,还有很多的垂直类别都还在处于需要持续优化的阶段,同时在探索怎么以一个还不是特别完美的结果,能够应用在业务线上。
二是音频,音频能够表达很多视频无法表达的信息,比如音乐声,比如远方传来两声枪响,或者人物出现了一些争吵。所以大家也可以看到,音频和视频其实可以分别独立的提供有价值的信息。
三是文本,这里的文本,更多是指视频当中人物的对话,不管是对于台词做OCR,还是对人说话的声音做语音识别,最终需要转换成文本,就可以用自然语言处理的各种工具去对它进行分析。这些文本,除了人物对话,还有弹幕等信息,都能够成为加深对视频理解的信息来源。
对于这三种模态来说,需要思考怎么去利用这些模态,比如可以独立的去计算,在视觉上面做一个行为识别;同时在音频上分析人物可能正在唱歌;在文本上分析他唱歌的歌词内容是什么,每一个模态可以独立的去计算,得到的结果都有机会能够为广告提供点位。
另外还要考虑不同模态之间的融合,比如刚才视觉上面认为人物可能在唱歌,因为他的嘴正在做一个张合动作,而且从他的表情各方面,算法认为人物当前的视觉脸部动作更像是唱歌而非说话,这个时候如果通过音频识别到当前背景声音是音乐的概率有80%或者90%,那这个人物在唱歌的概率就会变得更大。
这种融合在算法上,有前融合或者后融合。前融合把它的一些特征、向量融合起来,然后再放到后面的分类器中。后融合就是分别识别出来了一些标签信息,然后在语义上面用一些策略或者一些相对简单的模型去训练,然后得到融合结果,这是面对各种模态时候的一些思路。
类别
一、三元组
一个什么样的对象在什么场景做什么事情。这对象包括人、包括物体,就是人脸识别、目标检测、服饰识别、车型识别等等。事件,比如正在做的动作,包括更抽象含义上的比如婚礼、战争,包括他对话的内容、人物的关系,都可以放到事件当中。场景,比如说海滩、教室,甚至一个地标,这些都是所处的场景。
二、看点
是指剧情引人注目值得观看的内容。两个武林高手打斗是非常精彩的,但是可能普通人的打斗没有那么精彩,所以说即使有了谁在什么地方做什么事情这样的一些标签,可能还缺少精彩度、是不是搞笑的、是不是浪漫的信息。
调性,视频画面中是一个正向的场景,正向的对话,还是一个负向的?是一个高大上甚至非常奢华的场景,还是比较接地气的、大众的场景?这对于广告主的选择来说比较重要。一个高端品牌,它可能认为在高档餐厅就餐的场景跟自己品牌调性是相符合的。
所以,即使是一些看起来行为相同标签,根据它调性的不一样,也会推荐给不同的广告主。
空间,比如当前的这个画面是否有一面墙,是否被遮挡,是否有一个桌面,是否是一个空旷的场景。那这些对于后期植入、创可贴等形式的广告都是有帮助的,可以从这些方面去理解视频空间。
以上列出的每一个词,可能对应一个或者多个算法,也可能是几个词对应一个算法,从各个维度去分析理解视频的内容。
策略
除了单一的算法,还需要考虑到策略,针对当前的这些数据,如何去利用这些算法。
一、时序的关系
视频特点是什么?它不是每一帧都在突变的,它是有连续性的,这个连续性构成了视频非常好的一个特点。比如说有的帧,有的画面可能看不清楚,但是可能通过帧间的信息,通过跟踪的方式,修正时序之间的信息。另外,可以直接用时序的模型,用三维的CNN,或者是LSTM等,对时序的信息直接去做建模。
二、类别的关系
之所以要考虑这点,因为各类别不是孤立存在的,相互之间还有一些相关或者相似的关系,利用好这些关系,能够有效的提升精度。
比如识别视频中的服装是古装;另外一个算法,识别视频中出现了一部手机,但一般古装片不太会有手机,这就是相斥关系,如果还发现视频中其他位置出现了电脑等等,那有可能前面对于服饰的识别是有问题的。当然也不排除它虽然是一个现代剧,在特定时候或者特定的角色穿了古装服装。所以对相关性的利用需要系统化考虑
对于相关的类别,比如识别到场景是一个足球场,行为上又识别出是在踢球,那这两方面是互为印证的,对于场景是足球场和行为是踢球这两方面的置信度都可以因此而提高。所以,利用好类别关系,是有机会帮助我们去优化各个类别垂直算法的输出。
三、策略
怎样提供更多的点位,考虑到这一点,那可以不拘一格去用更多的模型,然后对于同一种类别,不同的模型它能够侧重在不同的角度,提供不同的召回。
同时,也可以考虑用检索的方式,用匹配度、相似度的方式,可能依据的是单一样本,或者是某一些子样本的特点,可以从相似的角度去做更多召回,不一定精准,但是也许能够跟分类模型去做互补。实际经验是通过一些策略的设置,让检索模型和分类模型在某些方面去做融合,能够取得比单一模型更好的效果。
框架
对于视频识别的是细粒度的物体或者属性,但是对资源消耗比较大,可以有从粗粒度到细粒度这样的一个结构。
比如以图像为例,对输入图像做目标检测,检测到里面有车和人。检测到车后给它一个边界框,再把它输入到车型识别算法,能够识别这是一个奔驰轿车。检测到人后,识别出这是女性,而且识别出她的颜值很高,这个时候得到了细粒度的一些标签,再通过语义推理,可能判断是一个白富美,这是一个简单的示意。在实操中可以通过这样一些方式,一是节省资源避免重复开销;同时通过把这些细粒度的标签做一些整合推理,有机会能够得到更多、更好、更高层的标签。
系统
算法投入使用离不开系统的支持。
比如说有一些广告,它对实效性的要求非常高,当视频一上线,就需要马上投放相关的广告。对于这样的情况,我们需要快速通道。对于实效性低的广告,可以离线分析,甚至对存量视频在夜间分析都能够满足业务需求。这存在资源的一个动态的分配,简单来说可以有一些快速或者慢速的通道来解决。
因为算法几乎不可能是完美的,不同算法它的难度、数据不一样,会有不同程度的效果。当前如果有一个不完美算法,是否要用在业务上面,这有几个选择,第一,不满足业务的需求,暂停当前算法的研发;第二,针对算法,去找能够用得上的业务,拿着锤子去找钉子。但这会很难,因为业务上的需求,很难从一个算法去倒推;第三,优化算法,直到达到可用的状态。以上三种,在不同情况下可能都合理,但也都不足够理想。很现实也很重要的是,是否能够通过一些策略,让算法达到业务可用的状态。尤其是对人机结合的探索,在很多场景非常有价值,真正能保证一个高度可用的用户体验。
现在有很多创新性的算法,产品本身也是创新的,这里存在互相影响的问题。比如业务方并不知道算法到底能做什么,算法也不太清楚业务方需要什么。如果只是通过语言上的沟通去描述、去判断,那可能会损失很多信息。一个比较有效的解决方式,是能够低成本设计Demo,通过Demo演示让业务方了解技术现在能够达到的程度,业务方结合Demo效果可以去思考当前需求是否可以满足,或者是通过Demo去找到一些在业务场景下落地的范围,一些场景。Demo的展示虽然看起来简单,但是它却是一个非常有效的方式,这里面的关键是跟业务方保持一个怎样的沟通,什么时候以及怎样去设计Demo,什么时候同步信息。
生成
以前情提要为例,生成是无中生有的产生点位,前情提要就是对上一集电视剧的内容,机器自动化的去生成一个十几秒到几十秒甚至几分钟的视频。前情提要需要包含重要或者精彩的情节,所以要从感官情节上面去找到这些精彩的地方。因为它是由几个片段组成,所以需要做转场点的识别,在镜头、场景包括人物的对话上找到适合切分的点。
在前情提要中,有一些没有主角,或者是对更早剧情的回忆这类片段,要识别这些特殊情况并把它过滤,片段的合成还需要有剪辑逻辑:尽量的提供更丰富的信息,保持多样性,若干个片段的先后顺序,这些都是需要考虑的。
爱奇艺现在已经自动化的生成前情提要,事实证明这也是一个比较受广告主认可的方式。
总结
最后用几个关键词来总结视频广告点位的重点。
在性质上,视频它是一个一半真实、一半虚拟的信息。那广告点位的目标是要找出有用、自然、显著的广告点位。
在形式上,主要针对只考虑时间选择的贴片形式,考虑时空相关性的浮层形式,以及考虑如何跟视频非常真实的融为一体的植入形式,针对这几种形式,从识别和生成当中的各种细分的类别上面去做点位的识别、挖掘和生成。
最后可以看几个广告案列,下图中第一个是创可贴,画面中正在说买单的场景,演员说到“买单”的时候,出现了某支付app的广告。第二个是前情提要广告,剪辑的是一个浪漫高甜的场景,出现的广告是一个美容美颜的饮品类的广告。第三个是Video in后期的植入,黄色座椅上的饮料瓶是后期加上去的,因为这是一个运动的场景,所以植入了运动饮料广告。
点击“阅读原文”,可观看本次【i技术会】视频。
也许你还想看
扫一扫下方二维码,更多精彩内容陪伴你!