2018-04-03

论文：On the use of deep learning for blind image quality assessment

作者：Simone Bianco, Luigi Celona, Paolo Napoletano, Raimondo Schettini

原文及相关资料链接：资料链接

名词解析：SVR、ImageNet-CNN、Paces-CNN

SVR：Support Vector Regression（支持向量回归）一种回归方法，主要是通过升维后，在高维空间中构造线性决策函数来实现线性回归。

ImageNet-CNN：在大型图像数据库ImageNet上训练的CNN。通过120万张（ILSVRC 2012）图像的训练，进行1000个类别的目标识别。

Places-CNN：在Places场景数据库上训练的CNN。250万幅场景图像的训练，进行205个类别的分类任务。

论文内容：本文主要研究了CNN作迁移学习来解决图像质量评价问题。作者研究目前在大型图像数据库上训练出的CNN模型直接用于图像质量评价或者通过迁移学习再进行图像质量评价，如 ImageNet-CNN、Places-CNN、和ImageNet+Places-CNN，实现基于深度学习的通用失真盲图像质量评估算法。

再尝试了不同的设计选择：使用从预先训练的卷积神经网络（CNN）提取的特征作为通用图像描述，到使用从CNN提取的特征进行微调以完成图像质量评估任务，后得出，方案DeepBIQ通过对原始图像的多个子区域预测的分数进行平均汇集来估计图像质量取得了最好的结果。

DeepBIQ来源于ImageNet+Places-CNN迁移学习其输出的特征向量作为后续学习的输入，使用支持向量回归（SVR）来计算每个子区域的分数。在野外图像质量挑战数据库中的实验结果表明DeepBIQ优于最先进的方法，包括基于深度学习的方法，具有人类主观得分几乎为0.91的线性相关系数（注：在所提的数据库上，从论文数据看效果是最优的，但是作者只给出的不同方法在实验时得到的LCC和SROCC，未给出在不同的失真类型上分别的LCC和SROCC值，不好与其他论文数据对比，此处并未一一考证）。这些结果在四个合成失真图像基准数据库:LIVE，CSIQ，TID2008和TID2013中也得到证实。

论文出发点：在实际学术研究中，很少有人从头开始训练整个CNN，因为拥有足够大小的数据集相对较少。相反，采用在不同大型数据集（例如ImageNet ）上预先训练的CNN是比较常见的方案，将其用作特征提取器或作为进一步学习训练的初始。此外，CNN已经被训练承认的概念越多，提取的特征就越好。

实验：作者评估了以下几种提取特征方式的效果。

1.使用不同的图像分类任务预先训练的不同CNN提取特征；

2.使用多个不同的图像子区域（与使用整个图像相反）以及使用不同的策略进行特征和分数预测池化；

3.使用经过微调的CNN（1中所提的基于分类）进行图像质量评估。

然后，提出了一种新颖的过程，用于对多种通用失真NR-IQA对CNN进行微调，包括对CNN进行有差别地微调以对裁剪的图像进行分类（分为5类即糟糕，差，中，良，优），将其用作特征提取器。

无论是特征提取策略还是相关的CNN，最终都利用支持向量回归学习从CNN特征到感知质量评分的映射函数。

图像的表示：在直接使用前面所提三种预训练的CNN，必须满足其输入。因此作者调整了图像的大小以匹配预定义的CNN输入大小。具体方法有如下两种：

a方法：缩放剪枝，整幅图像调整大小适应输入；

b方法：裁剪，将一幅图像裁剪成符合输入的多个图像块。