一、综述

  随着互联网视频越来越多,人们迫切希望能够快速地从众多的视频中精准定位到一些高质量的视频。视频清晰度是评价视频质量的一个重要指标,特别是对于影视剧和动漫类视频来说,高清晰的视频能大大提升用户的体验。所以如何判断视频清晰度,识别出高清晰的视频对于用户和搜索引擎来说是非常有价值的。

  和大多数评价机制一样,视频清晰度分为相对清晰度和绝对清晰度。相对清晰度可以理解为视频之间的清晰度排序,而绝对清晰度可以理解为首先将清晰度划分为不同的级别,然后判断视频属于哪个级别。目前,我们视频搜索的清晰度识别就属于“绝对清晰度”,应用是将视频划分为“高清”和“非高清” 两个级别展现给用户。

  视频清晰度的影响因素很多,包括模糊度、块状(mosaic的数量)、噪声数量、明暗程度、编码误差等。这些因素通常是由于原始视频被压缩、传输、再拍摄、编辑引起的。人类通过眼睛可以非常准确地判断出一个视频是否清晰,但是要计算机自动识别出一个视频的清晰度是非常困难的,原因在于:影响视频清晰度的因素很多,每个因素都难以用数学定量地描述;计算机很难识别哪些是真实模糊和哪些是非真实模糊,例如摄像机拍摄的时候前景很清晰,但背景是模糊的,这种模糊和上述由于编码和压缩带来的模糊,人类可以快速地识别出来,而马赛克、噪声等也存在同样的问题;计算机是根据量化后的清晰度来识别未知视频的清晰度,而这种智能系统的实现还不能和人的智能相提并论。

  从上述分析我们可以知道,能否找到一个或者多个有效、可量化的特征来衡量视频清晰度是视频清晰度识别的关键。

二、衡量清晰度的因子

  我们知道衡量视频清晰度的因子来从视频的特征挖掘,视频的特征包括以下几个方面:视频的视觉特征、听觉特征、文本特征以及用于播放时的高层语义特征。这里的视觉特征主要包括视频帧图像的颜色、纹理、形状、运动等低层视觉特征;听觉特征反映了视频中音频的频谱分布和变化规律、节奏、韵律等;文本特征包括视频的ASR文本(视频中音频所包含的文本)、字幕文本、人工标记文本等;视频用于播放时的高层语义特征,如视频码率、分辨率。

  显然上述特征中听觉特征无法用于清晰度识别。文本特征中字幕和ASR文本识别和召回的难度和代价较大,并且存在准确率问题;而人工标记文本一般是由视频发布者提供,存在噪声和作弊的可能。视觉特征目前也面临建模、召回以及准确率等问题。所以本文采用了视频用于播放的高层语义特征,采用视频的分辨率(宽和高)、码率、作为衡量视频清晰度的基本属性指标,并组合这些属性,推导出一些组合属性:分辨率和码率乘积、分辨率和码率的商等作为衡量清晰度的因子。

  采用分辨率和码率识别视频清晰度还需要考虑一个重要的因素:数据分类,我们知道在同等清晰度条件下,动画类的视频比影视类视频在分辨率和码率上要低。

三、识别算法的选择

  在确定了用户识别视频清晰度的特征后,我们面临的问题是如何利用这些特征来有效地判断一个指定视频的清晰度级别。这个问题本质上这个问题是一个决策问题,所以本文采用一些成型的决策树算法来训练样本,生成的决策树用于实际的清晰度识别。

四、识别的主要过程

  识别的主要过程分为训练阶段和应用阶段:

  1.挑选不同类别的视频样本,人工标记,给视频的清晰度打分

  2.下载视频,获取视频的码率和分辨率,推导组合属性

  3.采用决策树算法训练样本,生成决策树

  4.为应用需要的视频下载部分视频内容数据,获取码率和分辨率等

  5.采用生成的决策树识别视频的清晰度

五、最终的效果和问题

  视频清晰度识别系统在召回率和准确率上达到较高的标准,最终应用在视频搜索产品中:在我们的检索结果中会将识别出的高清视频加以标记,向用户推荐。以下是在视频搜索检测“山楂树之恋”的前20个结果。召回的结果包括sina、sohu、letv、qiyi、tudou等站点的资源,准确率较高。未召回的资源中ku6资源不算真正的高清,其他两个未召回。

 

  由于没有采用视频的视觉特征,本文的清晰度识别在准确率上有一定问题,如召回重新拍制的老电影,不能识别视频压缩带来的失真和噪声;在召回上清晰度识别依赖于能否获取该视频的视频内容(部分)。以下是在视频搜索中检索“开心鬼上错身”这个老视频的结果,tudou的几个结果虽然各种维度的指标都很高,但不算高清:

 

 

  另外我们目前的清晰度识别采用了“绝对清晰度”,在某些情况下不能很好地满足用户的需求,如用户在检索一些花絮视频时,虽然知道这类视频的清晰度质都不高,但是用户还是希望能够看到最清晰的一个,这个时候就需要“相对清晰度”来满足。

By tanguoqiang

 

【本文首发于: 搜索研发部官方博客http://stblog.baidu-tech.com/?p=88
关注百度技术沙龙