No Reference Video Quality Assessment with authentic distor-tions using 3-D Deep Convolutional Neura

No Reference Video Quality Assessment with authentic distor-tions using 3-D Deep Convolutional Neura_第1张图片

摘要:

视频质量评估(VQA)是从视频流媒体到相机制造等多个行业的一个重要课题。本文提出了一种新的无参考VQA方法。这个框架速度很快,不需要提取手工制作的特性。提取3-D C3D卷积神经网络的卷积特征,输入一个训练好的支持向量机回归器得到VQA分数。我们对不同的颜色空间做了一定的变换,以产生更好的鉴别深度特征。我们从若干层(有或没有重叠)中提取特征,找到改善VQA评分的最佳配置。我们在LIVE-Qualcomm dataset中测试了所提出的方法。我们对感知质量预测模型进行了广泛的评估,最终得到了与平均意见分数的Pearson相关性(0.7749±0.0884),并表明它可以实现很好的视频质量预测,优于其他先进的VQA领先模型。

Introduction

每天都有数百万的视频在Y outube、Netflix和Hulu等平台上被分享和传播。思科估计,到2022年,视频流量将占所有互联网流量(包括企业和消费者)的82%,高于2017年的75%。由于智能手机的高可用性,许多视频都是由普通用户录制的,他们会因为硬件限制造成的人为痕迹、颜色、曝光、对焦、清晰度、稳定性等缺陷而扭曲这些视频。用户之所以这样做,是因为他们缺乏专业高质量视频生成的知识。自然的视频通常包含捕捉期间的失真,影响人类感知的视频质量。视频流媒体和相机制造商迫切希望了解这些失真对自然视频的影响和存在。利用VQA算法可以自动进行质量预测。尽管如此,VQA的主要挑战之一是视频内容依赖关系,这使得从唯一的数据集进行归纳变得困难

方法:

在所有实验中,我们使用C3D网络[37]来提取时空特征。在[37]中,作者证明了这些时空特征,加上一个简单的线性分类器,可以在一些视频分析任务中产生良好的性能,如动作识别[38],动作相似标记,场景分类和目标识别。C3D各层采用3×3×3卷积核,输入全视频帧,无预处理阶段。C3D执行3D卷积和3D池化,跨所有层传播时间信息,允许访问模型时间信息。C3D有5个卷积层和5个池化层(池化层紧跟着每个卷积层),2个完全连接层和一个softmax损失函数来预测动作标签。卷积层从1到5卷积层的滤波器数分别为64、128、256、256、256,asshowninfi .1。C3D将所有视频帧的大小调整为128×171像素[37]。在一个实验中,我们修改了C3D的原始架构,将卷积层视频分割成16帧的视频片段作为输入,8帧重叠在woconsecutiveclips之间,从而获得每个视频更多的特征向量,从而提高了特征/数据比率。C3D在完全连接的层中有1750万个参数。作者测试了四种不同的架构,每一种架构中内核的大小和深度不同。卷积层中的参数数量对于每个架构来说都是不同的,但是与全连接层中的1750万参数相比,卷积层中的参数数量的变化是最小的,而全连接层中的参数数量对于所有架构[37]来说都是相同的。我们从第5卷积层(conv5b)和第4096全连通层(fc6)中提取维数为50175的特征向量。

数据集

近年来,已经建立了几个VQA数据库[39,40]。我们使用的数据库LIVE-Qualcomm Mobile In-Capture Video Quality由[26]提出,因为它包含真实失真的视频。LIVEQualcomm的原始视频是YUV420格式的。我们将所有视频转换成未压缩的VI。这导致视频的平均大小为2.8 g,复制了原来的大小。这种转换可以最大限度地减少压缩造成的信息损失,从而避免在视频中添加其他不同的捕获后失真。然而,一个缺点是这些视频的巨大尺寸,增加了从C3D层提取特征的处理时间。LIVE-Qualcomm数据集中的视频平均持续时间为15秒,速率为30帧/秒(FPS)。每个视频大约有450帧,但并不是所有视频都有相同的时长;有些视频的帧数不到400帧。我们放弃了一个视频作为异常值(只有360帧)。因此,我们使用了来自LIVEQualcomm数据集的208个视频中的207个。

考虑到YCbCr组件和视觉属性之间的大致对应关系,我们使用到YCbCr颜色空间的转换对每个视频进行预处理。YCbCr是用于表示数字视频的两个主要颜色空间之一(和RGB一起)。YCbCr和RGB的区别是YCbCr将颜色表示为亮度(Y)和两个色差信号(CB, Cr), RGB表示颜色为红、绿、蓝[41,42]。同样,YCbCr比RGB少冗余,支持CNN的编码能力。在YCbCr颜色空间中,影响图像对比度(但不是颜色)的亮度变化很容易被访问。此外,YCbCr旨在利用人类的色彩反应特性。我们认为,这可以有助于发现某些扭曲现象。我们还使用基于平均减去对比度归一化(MSCN)系数的统计图像模型对每个视频进行预处理。MSCN系数具有扭曲会改变的统计特性,我们知道量化这些变化可以预测影响图像的失真及其感知质量[19]

SVR 回归

为了评价VQA方法的性能,我们采用了两个标准,即地面真实MOS与预测MOS之间的Pearson线性相关系数(PLCC)和Spearman秩相关系数(SROCC)。PLCC是两个变量之间线性依赖强度的度量。SROCC算法只对数据点的排序进行运算,忽略数据点之间的相对距离,从而度量预测的单调性。SROCC的绝对值描述单调关系[49]的强度。全连通层fc6的特征向量为4096×1,第五卷积层conv5b的特征向量为50176×1。这些向量构成矩阵输入,作为训练和测试SVR机的输入矩阵。一种部署的方法使用平均池化(AP),平均矩阵Finput的所有列(m是CNN层输出的特征数),其中大小为m×n的矩阵转换为m×1,将每个视频表示为单个特征向量。

结果讨论

No Reference Video Quality Assessment with authentic distor-tions using 3-D Deep Convolutional Neura_第2张图片

结论

在本文中,我们提出了一种NR VQA方法,明确针对具有自然失真的视频,如颜色、伪影、曝光、对焦、锐度和稳定性。我们的方法是基于三维卷积神经网络方法,使用从CNN的多层提取的特征来提供一个SVR模型,生成一个NR VQA模型,提供一个高水平的视频质量预测能力。我们的VQA方法优于几种最先进的VQA方法时,应用于真正的扭曲视频。

你可能感兴趣的:(质量评价,计算机视觉,深度学习,神经网络)