阿里巴巴iDST+阿里视频云：计算机视觉和机器学习在消费级视频中的应用

在刚刚圆满落幕的杭州云栖大会上，阿里巴巴董事局主席马云宣布成立达摩院，并将在3年内投资1000亿人民币用于新技术研发。而iDST就是达摩院中的一员，她致力于打造涵盖图像视频、语音交互、自然语言理解、智能决策等人工智能核心技术，肩负着在人工智能领域树立阿里巴巴集团世界领先的技术品牌使命。

那iDST的人工智能技术与阿里视频云强强联合，将碰撞出怎样的科技火花呢？

本文邀请iDST高级算法专家刘扬，将从视频云和人工智能技术结合的由来、消费级视频的特点、iDST视频AI技术进展、iDST的VENUS视频分析平台、视频云+人工智能未来展望五个部分，来介绍iDST在视频领域的技术和在视频云上的工作成果。

视频云和人工智能结合的由来

视频AI是由几方面因素组成。最底层是云计算平台，它包括存储、海量视频的分布式计算和流媒体处理能力，这是基础。中间层是人工智能技术，包含了不同的人工智能处理模块，有机器学习、模式识别、计算机视觉等，来为云端存储的视频提供多种分析和理解服务。上层就是数据，数据来源于两个方面，一方面是媒体数据，也就是实际要处理的媒资（介质），比如广播电视、视频网站、短视频、视频直播等，另一方面是海量用户数据，比如直播主播、视频网站用户、短视频达人、新闻从业者等。

这上中下三层整个支撑了视频AI的整个系统，每一层都不可或缺。这里面数据是最为重要的一层，因为所有云计算和视频AI处理的能力，阿里云都可以提供，而在垂直细分市场中，真正能构建行业壁垒和竞争优势的，就是数据。

在视频领域，数据就是视频本身，那消费级视频拥有什么特点呢？

消费级视频的生命周期及演变

消费级视频区别于监控视频、医疗视频、航天视频、测绘视频等专业领域视频，它是用来娱乐大众和被观众消费的视频，我们日常生活中常见的娱乐综艺、影视剧、直播、短视频都属于消费级视频。它的整个生命周期分为四个阶段，第一阶段是生成，视频拍摄和录制，第二阶段是编辑，用户或者平台方进行视频处理和制作，第三阶段是视频通过不同的方式和渠道分发到用户手中，第四阶段是用户对视频进行消费。

随着网络的发展和短视频的兴起，视频的再次编辑->再次分发->再次消费已经成为了流行趋势。比如经常在短视频平台上，看到了热门影视剧中的片段，它经过编辑处理可以在短视频平台上再次分发。

随着时代的发展，消费级视频的生命周期也发生了很大变化。

生产阶段，视频从以往的专业设备拍摄，变成了如今的手机终端随时随地的采集；
编辑阶段，以往视频编辑是由专业人员进行剪辑，而如今视频编辑的概念演变成了美颜、滤镜等特效，降低了门槛，用户可以自由编辑；
分发阶段，从最初的电视节目逐渐演变成了视频网站的定向搜索观看，到如今十分普遍的APP feed流模式和个性化推荐；
体验阶段，从以往的纯粹看，到现在的与视频交互（包括电商、互动游戏、广告等等）。

由此可见，在视频的不同生命周期内，人工智能技术的应用也有所不同。接下来我们一起看看阿里巴巴iDST在视频领域研究的一些进展。

视频人工智能技术三大领域：视频理解、视频搜索、视频编辑

这三点是人工智能在视频云方面应用最广泛的三个领域，我们将从这三个方面详细阐述。

第一，视频内容理解技术

我们先了解下视频的内容怎么定义。
通常情况下我们认为，视频是图像序列。但是视频不仅仅只有视觉画面，视频还包含声音。声音又分为语音和音频两种，语音我们可以通过技术转换成文本，而音频是能表达出特定场景的寓意。另外视频还有运动，物体的运动信息，它能够对于视频中的行为类的内容有强有力的表现形式。所以我们认为，视频内容分析实际上就是对视频中多模态信息分析的过程，理解视频，其实就是理解这些多模态信息。

我们可以把视频内容简单地分为两类：一类是具有具象意义的内容，例如人、物体、场景、事件；另一类是抽象意义的内容：主题、情感等。

对于视频内容的理解，我们会将视频表现成有物理意义的标签。这个标签可以是不同粒度的，比如video-level的，整个视频的类目是新闻、体育，还是财经。再或者clip-level比如视频中的一个片段，是武打、亲吻还是赛车。甚至可以把标签定位到视频的某一帧上，即frame-level的。

图中绿色文字就是为视频打标签的技术手段，包括视频分类、语音识别、人物识别、OCR、物体识别、场景识别。

那在视频内容理解这一领域，人工智能+视频都做了什么?

视频分类

在ACM MM‘17大规模视频分类竞赛中，阿里巴巴iDST团队平均准确率（mAP）达到87.41%，获得冠军。而在竞赛中，借助于阿里云ODPS，提取视频关键特征，我们可以实现大规模的视频分析处理能力，日处理规模为百万视频。

视频多模态分析

下图包括OCR，它可以对视频中出现的文字进行识别；ASR，能够对视频的语音转文本，可以为视频实时加字幕。

视频物体识别与定位

左边那幅图是物体识别，对应到技术上就是图像分类，识别出视频帧中包括什么物体，场景等；中间是云上的物体检测，右图是端上的物体检测，不只能识别视频中的物体是什么，还能定位到物体在哪里。目前，已经支持1000+物体的检测和5000+物体的识别，已经被广泛应用在云相册和优酷土豆的视频打标上。

目标跟踪

在物体检测后，就是目标跟踪的过程。视频本身是有时域信息的，通过目标跟踪，我们可以准确地知道物体的生命周期，可以精确分割出物体的时域片段。比如在淘宝商家上传视频的过程中，会自动检测视频中的商品并跟踪，在前段展示的时候，用户感兴趣的话，可以点击锚点，直接进入商品页。

事件、行为、动作、场景识别

其实在iDST的视频分析系统中，这四块技术的整体框架是相同的。对于任意一段长视频，我们都可以精确到视频中的每一分每一秒，给其中的事件或动作打上标签，并且对舆情进行分析。

视频同款商品检索

iDST从15年开始做视频电商研究。之前如果在视频中搜同款，我们需要在视频中进行采帧，采帧之后对每一帧图像中检测到的物体进行检索。在连续的镜头中，同一件物体，由于演员动作、遮挡、形变等客观因素干扰，相同物体的搜索结果相差很大。为了提高搜索准确度，我们对同一件物体进行跟踪，通过LSTM在时域对物体序列进行encoding，来进行检索。

个性化商品投放

这个能力已经落地在天猫魔盒第一版边看边淘项目中，它可以打通观看视频的用户、视频本身内容、淘宝上的商品之间的关系，它就会在最合适的视频片段里投放用户最感兴趣的商品。

第二，视频搜索技术

我们把视频搜索技术分成三块，一块是音视频指纹，主要用于相同视频检索；另一块是视频相似性，找的是相似的视频；还有一块是跨媒体检索，主要用于多类型query视频检索。

视频指纹技术的应用场景其实比较多，本身就是找同源视频。什么是同源视频？我们在视频网站上看到的，有的视频加了片头、片尾、边框、翻转、码率和格式的转换等，这些都是同源视频。目前，同源视频在检索速度可以达到40:1。视频相似性，通过视频向量的特征来度量不同视频之间的相似性，这个功能主要被应用在视频搜索和视频推荐中。跨媒体视频搜索，通过检索文本、语音、图像和视频片段等标签，在统一特征空间里找到对应的视频。

第三，视频编辑技术

从技术角度来说，视频编辑就是结构化分析。通过视频帧和帧之间的相似性和其他方法对视频进行不同粒度的分解。最细粒度就是帧，再往上一层是镜头，进一步就是场景。

在这个视频结构化分析的基础上，我们会对视频进行编辑，一些编辑应用可以体现在几个方面：封面图，打破传统的视频网站和APP用海报做封面图的模式，利用人工智能去选取最好的一张封面图，吸引用户的点击，这点已经在视频云客户、淘系、阿里大文娱产品中应用；GIF动图，对视频中的帧做成GIF动图，便于编辑快速浏览视频内容，对视频进行打标管理，提高运营效率；Highlight和摘要，对视频中的关键信息、吸引人的片段进行自动提取，比如三分钟看大片或者动态镜头展示；拆条，它的应用包括新闻拆条，新闻联播的视频拆成独立事件，另外一种是UGC或者娱乐视频，拆成片段，为短视频APP提供一些资源，进行再分发；特效就是对人物进行美颜、滤镜，包括专场处理等等。

VENUS视频服务平台

VENUS是由阿里巴巴iDST和阿里视频云一同打造的视频服务平台，这是一个智能分析与计算平台，通过国际权威的冠军技术，打造以视频为入口的平台服务。

视频内容理解服务

产品功能分为:视频分类、语音转字幕、人物识别、文本识别，泛标签提取，应用场景包括媒资管理，视频分发，广告投放，视频电商等。依托于iDST强大的科研实力，视频内容理解服务具备很多核心优势，其中包括刚刚前文讲到的多模态分析，还有完善的标签体系和稳定成熟的应用。因为阿里大文娱和淘系的强大的视频生态环境，资源非常丰富，类目体系完备，所以服务的场景可以涵盖电商、娱乐、短视频、长视频版权剧等等。同时，我们目前视频内容理解服务以及广泛应用在优酷、土豆、UC、闲鱼和手淘视频内容上，所以在集团内部经过了大量的、长期的验证之后，对外推出的服务一定是非常稳定成熟的。

视频指纹服务

这个服务目前是相对来说比较成熟的服务，业务场景非常明确，包括用于视频去重业务场景，版权保护和原创认证（防止侵权，鼓励PGC原创性，分成系统），安全审核（通过黑名单库来做视频安全审核）。目前视频指纹技术的优势在于能够多场景适配（格式、分辨率），对不同分辨率的同源视频具备很好的识别能力，并可以根据业务方需求进行秒级的实时扩展，另外，因为在特征选取上做了很多的深入研究，视频指纹的精确度也非常高。

视频智能编辑服务

涵盖了智能封面图、视频摘要、视频Highlight、GIF、视频切换化等多项产品功能，等你上传了一个视频后，你的所有编辑需求都可以一次性搞定。这里智能封面图也支持根据用户信息的实时反馈和行为日志，实现个性化的首图投放，也可以根据类目，进行首图自适应选取，加强用户体验。另外，智能首图技术不仅仅是基于视觉的处理，本身的模型是通过海量的用户行为日志来做的，我们会分析和提取用户点击率高的视频首图的共性，用这些信息指导模型的学习，所以，模型基于大数据生成的，可以提高用户的观看时长，减少搜索复杂度。

视频AI技术展望

阿里巴巴iDST高级算法技术专家刘扬认为：视频中的电商和广告是一个方向，用户最终是想实现流量变现。所以，未来我们需要在不打扰用户体验的情况下，进行视频电商和广告的尝试。另外，在未来，视频的流量分发也十分重要，平台方需要通过多种维度分析把最合适的视频推给最需要的人，视频AI技术在里面可以起到很大的作用，这是我们的研究方向。最后，视频编辑中版权素材库认证、版权追诉、版权交易的业务，以及视频交互编辑的体验，都是有非常大的前景的。人工智能技术在视频AI领域能够发挥的最大作用就是极大提高工作效率，节省人工成本和计算成本。

我们都知道视频是极耗资源的，视频平台是否能做到海量的视频分析，在最短的实际内高效进行视频处理，并且低成本的稳定运维，这三点极其重要。利用阿里巴巴iDST和阿里云视频云能力强大的技术实力，VENUS视频服务平台可以轻松做到以上几点，帮助客户更好的进行视频内容理解和分析，在消费级视频中更全面的应用计算机视觉和机器学习技术，达到高效工作的目的。