2018-04-03

论文:On the use of deep learning for blind image quality assessment

作者:Simone Bianco, Luigi Celona, Paolo Napoletano, Raimondo Schettini

原文及相关资料链接:资料链接

名词解析:SVR、ImageNet-CNN、Paces-CNN

SVR:Support Vector Regression(支持向量回归)一种回归方法,主要是通过升维后,在高维空间中构造线性决策函数来实现线性回归。

ImageNet-CNN:在大型图像数据库ImageNet上训练的CNN。通过120万张(ILSVRC 2012)图像的训练,进行1000个类别的目标识别。

Places-CNN:在Places场景数据库上训练的CNN。250万幅场景图像的训练,进行205个类别的分类任务。

论文内容:本文主要研究了CNN作迁移学习来解决图像质量评价问题。作者研究目前在大型图像数据库上训练出的CNN模型直接用于图像质量评价或者通过迁移学习再进行图像质量评价,如 ImageNet-CNN、Places-CNN、和ImageNet+Places-CNN,实现基于深度学习的通用失真盲图像质量评估算法。

再尝试了不同的设计选择:使用从预先训练的卷积神经网络(CNN)提取的特征作为通用图像描述,到使用从CNN提取的特征进行微调以完成图像质量评估任务,后得出,方案DeepBIQ通过对原始图像的多个子区域预测的分数进行平均汇集来估计图像质量取得了最好的结果。

DeepBIQ来源于ImageNet+Places-CNN迁移学习其输出的特征向量作为后续学习的输入,使用支持向量回归(SVR)来计算每个子区域的分数。在野外图像质量挑战数据库中的实验结果表明DeepBIQ优于最先进的方法,包括基于深度学习的方法,具有人类主观得分几乎为0.91的线性相关系数(注:在所提的数据库上,从论文数据看效果是最优的,但是作者只给出的不同方法在实验时得到的LCC和SROCC,未给出在不同的失真类型上分别的LCC和SROCC值,不好与其他论文数据对比,此处并未一一考证)。这些结果在四个合成失真图像基准数据库:LIVE,CSIQ,TID2008和TID2013中也得到证实。

论文出发点:在实际学术研究中,很少有人从头开始训练整个CNN,因为拥有足够大小的数据集相对较少。相反,采用在不同大型数据集(例如ImageNet )上预先训练的CNN是比较常见的方案,将其用作特征提取器或作为进一步学习训练的初始。此外,CNN已经被训练承认的概念越多,提取的特征就越好。

实验: 作者评估了以下几种提取特征方式的效果。

1.使用不同的图像分类任务预先训练的不同CNN提取特征;

2.使用多个不同的图像子区域(与使用整个图像相反)以及使用不同的策略进行特征和分数预测池化;

3.使用经过微调的CNN(1中所提的基于分类)进行图像质量评估。

然后,提出了一种新颖的过程,用于对多种通用失真NR-IQA对CNN进行微调,包括对CNN进行有差别地微调以对裁剪的图像进行分类(分为5类即糟糕,差,中,良,优),将其用作特征提取器。

无论是特征提取策略还是相关的CNN,最终都利用支持向量回归学习从CNN特征到感知质量评分的映射函数。

图像的表示:在直接使用前面所提三种预训练的CNN,必须满足其输入。因此作者调整了图像的大小以匹配预定义的CNN输入大小。具体方法有如下两种:

a方法:缩放剪枝,整幅图像调整大小适应输入;

b方法:裁剪,将一幅图像裁剪成符合输入的多个图像块。


2018-04-03_第1张图片
尺寸调整

满足输入尺寸后,给定一个输入图像CNN执行所有的多层操作,通过去除最终的softmax层和最后一个全连接层得到相应的特征向量。 特征向量的长度是4096。来自多个块的信息必须进行融合,以预测整个图像的单个质量分数。其融和方式包括已下三种:

a:特征池化后融和,在子区域特征向量上逐元素地执行特征池化信息融合以生成单个特征向量(考虑最小值,平均值和最大特征池化);

b:特征级联,信息融合是通过将子区域特征向量连接来组成单个较长特征向量执行的;

c:预测子块分数后池化,对预测质量分数进行预测融合, SVR预测每个图像块的质量分数,然后使用最小,平均或最大池操作对这些分数进行融合。


2018-04-03_第2张图片
融和

实验分析:

实验一:使用预先训练的CNN进行图像描述,图像尺寸调整选择方案a


2018-04-03_第3张图片

验二:特征和预测池化策略,在实验一表现最好的网络上测试,输入图像尺寸调整选择方案2


2018-04-03_第4张图片

实验三:使用经过微调的CNN进行图像描述

作者选择实验一中效果最佳的ImageNet+Places-CNN进行微调。将MOS值分为五个不相交的集合分别代表不同的等级,如MOS在0-20指教代表糟糕、20-40直接代表差、40-60代表一般、60-80代表良好、80-100代表优秀。在微调网络上测试实验二中表现较好的两个特征融和策略:


2018-04-03_第5张图片


之后在不同的数据库上与现有的优秀方法做对比,具体实验结果参见论文。

你可能感兴趣的:(2018-04-03)