论文阅读笔记:End-to-End Blind Image Quality Prediction With Cascaded Deep Neural Network

NODIECANFLY 2020-9-24
分类专栏: 图像质量评价 深度学习
Jinjian Wu, et al, “End-to-End Blind Image Quality Prediction with Cascaded Deep Neural Network”, IEEE Transactions on Image Processing, Early Access, June. 2020. https://web.xidian.edu.cn/wjj/paper.html.查阅

标题

基于级联深度神经网络别的段单端图像质量预测[TOC]

Abstract
深度卷积神经网络(CNN)在图像识别方面取得了很大的成功。 许多图像质量评估(IQA)方法直接使用面向识别的CNN进行质量预测。 然而,IQA任务的性质与图像识别任务不同。 图像识别应对视觉内容敏感,对失真具有鲁棒性,而IQA对失真和视觉内容都敏感。本文针对盲图像质量评价(BIQA),提出了一种面向IQA的CNN方法,该方法能有效地表示质量的下降。 CNN是大数据驱动的,而现有IQA数据库的大小太小,无法进行CNN优化。 因此,首先建立了一个大型IQA数据集, 其中包括100多万张失真图像(每幅图像都有一个质量分数作为平均意见分数(MOS)的替代,缩写为伪MOS)。 其次,在人类视觉系统中的层次感知机制(从局部结构到全局语义)的启发下,设计了一种新的以IQA为导向的CNN方法, 其中考虑了层次退化。 最后,通过在端到端框架中联合优化多级特征提取、层次退化级联(HDC)和质量预测,实现了级联 ,并介绍了带有HDC的级联CNN(称为CaHDC)。在基准IQA数据库上的实验表明,与现有的BIQA方法相比,CaHDC具有优越性。 同时,与其他基于CNN的BIQA模型相比,CaHDC(约0.73M参数)是轻量级的,在微处理系统中可以很容易地实现。 该方法的数据集和源代码可在https://web.xidian.edu.cn/wjj/paper.html.查阅

一、介绍

本文是在受到人类视觉系统中层次感知机制(从局部结构到全局语义)的启发,设计了一种新的面向IQA 的CNN方法,该方法考虑了层次退化问题。然后通过对多级特征提取、层次退化拼接(HDC)和端到端质量预测的联合优化,提出了一种基于层次退化拼接的级联CNN。虽然CaHDC只有少量的参数,但仍保持高性能,大大减轻了过拟合。
本文的贡献:1)为了解决训练数据有限的问题,建立了一个大规模的质量注释数据集,该数据集的视觉内容具有很大的多样性和失真性。 我们提出的方法所分配的伪MOS是可靠的,与主观测试相当。2)基于人类视觉系统(hvs)的层次感知机制,提出了一种面向 iqa 的 cnn 方法,将层次退化连接到 biqa 中,并以端到端的方式对特征提取、层次退化连接和质量回归进行优化。由于分级降解级联和端到端优化,CaHDC可以更好地了解质量退化的本质。 实验结果表明,CaHDC达到了最先进的水平。3)CaHDC 作为一个只有0.73M参数的轻量级网络,所提出的 iqa 模型易于在微处理系统(如 nvidia jetson tx2)中实现,能够满足精度和实时性的要求。

二、相关工作

在过去的几年中,随着CNN在各种视觉任务中的突出表现,一些基于CNN的BIQA被提出。 基于CNN的BIQAS主要有两种类型,其体系结构为如图 2(a)和(b)所示。第一种类型是端到端,但没有分层退化集成,如图2(a)所示。比如 BIECON[19]遵循FRIQA行为,将局部质量图作为卷积神经网络的中间目标,然后将集合特征回归到质量分数中。 Rank[17 ]训练一个孪生网络对通过向参考图像添加合成失真而产生的图像进行排序。 MEON[18]由两个子网络组成:失真识别子网络和质量预测子网络。虽然这些方法采用端到端的优化框架,但它们只使用最后一层的输出来评估图像质量。然而,不同程度的失真对层次特征产生不同的退化。上述这些方法不能有效地表示层次退化。
为了捕捉层次退化,一些研究人员从现有的预先训练的CNN模型(在其他任务上,例如对象分类)中提取多级特征,然后提取这些特征 用SVR回归图来预测图像质量。这种类型的结构用图2(b)表示 。例如,BLINDER[12]在VGG16[29]的每一层提取特征。然后利用SVR在每一层获得一个分数,并通过平均分层分数来计算最终的质量分数。HFD-BIQA[13]结合了从ResNet[30]中提取的低级局部结构特征和高级语义特征。 然后,将组合特征输入SVR以获得最终的质量分数。虽然这些方法结合了不同层次的特征,并从多个尺度测量质量退化,但它们分别提取特征并预测质量分数。 由于它们不在端到端优化的网络结构中,因此这种BIQA不能共同优化整个过程。而且这些模型的性能和泛化能力总是受到用于预训练的任务的约束。此外,所有这些基于CNN的BIQA都存在一个共同的问题:缺乏大数据训练数据。 现有数据库太小,无法提供足够的训练图像来优化具有高泛化能力的网络。论文阅读笔记:End-to-End Blind Image Quality Prediction With Cascaded Deep Neural Network_第1张图片 在本工作中,我们首先构建了一个大规模的质量注释数据集,以解决基于合并多个FRIQA的训练数据缺乏的问题。接下来,端到端级联CCNN模型(称为CaHDC)如图2©所示。 其中考虑了分层退化,同时联合优化了整个程序。 值得一提的是,虽然CaHDC有少量的参数,但它仍然保持高性能。 它大大减轻了过度拟合,达到了优越的跨库性能。

三、 具有伪MOS的大规模数据集

优化具有高泛化能力的深卷积神经网络需要大量的数据,然而最流行的IQA数据库如LIVE[35]、CSIQ[36]、TID2013[37],通常太小。 Waterloo Exploration数据库[38]包含94,880张从7444幅高质量自然图像中产生的失真图像。 然而它只包含4种失真类型,所有的图像都缺乏质量标签。
在本工作中,首先从MSCOCO[39]中选择10,000幅高质量的图像作为参考图像。 接下来,每个参考图像在5个噪声水平下被21种类型的失真退化。 因此,收集了1050000张失真图像。然后,选择每个失真类型的最佳FRIQA来计算图像的质量分数。 采用五种经典的FRIQA度量。最终,我们通过建立每个失真类型的非线性映射函数来规范所有失真图像的质量分数,得到统一的伪MOS。Tab1 列出了我们提出的数据集和其他4个数据库之间的比较。 我们提出的数据集在图像数量方面远远领先于其他数据库。 因此,我们可以利用足够的标记数据来训练一个稳定和健壮的深层网络,从而大大减轻过度拟合。

四、 质量预测框架

A框架
我们用X表示大小为300×300×3的输入图像,用Q¯表示输入图像的伪MOS/MOS。 如图4所示。 我们提出的模型由三个部分组成:用于特征提取的层次网络、用于分层退化融合的池网络(SiPnet)、以及质量预测的回归网络。 它们的参数表示为Wα、Wβ和Wϕ在所有卷积层和全连接层之后, 选择ReLU作为激活函数,并在所有卷积层和完全连接层期望特殊语句之后使用。
论文阅读笔记:End-to-End Blind Image Quality Prediction With Cascaded Deep Neural Network_第2张图片
Hierarchical Net(层次网络): 层次网络由6层卷积层构成,包括1-x、 … 、6-x 等6层,用于提取层次特征(浅到深/低到高)。层次网络的参数/细节如图5所示,层次网络的参数化细节如图所示。 其中,所有卷积层应用3个×3个核,1个步长和零填充,以获得相同的输出大小作为输入。 同时,在每个级别的输出上使用2×2最大池与步长2和零填充进行下采样。
SiPnet:SiPnet的分支来自层次网的不同级别,除了第一级和第二级。 我们省略这两个级别的原因是接收字段大小太小,太多的参数会增加我们网络的复杂性。 如图6所示,SiPnet首先采用1×1核和1×1步的卷积层。 在此之后,采用3×3核、零填充和2×2步的一系列重复卷积层进行下采样(直到与conv6-1相同的大小10×10)。 从conv6-1中分离出来的最后一个SiPNet只有一个卷积层1×1核和1×1步长。 从SiPNet-1到SiPNet-3进行下采样的重复卷积层的数目分别为{3, 2,1}。这里本人感觉每个级别重复卷积之后的结果都是一样的,不是特别理解?
Regression Net:回归网包括K+1个完全连接层,FC-1-x,…,FC-5-x,将从SiPnet中提取的特征映射到质量分数,其中 k = 4是要整合的能级数。 如图4所示。 将与特征映射相同大小10×10的最大池应用于SiPNet的每个输出,以提取最明显的特征,表示为
论文阅读笔记:End-to-End Blind Image Quality Prediction With Cascaded Deep Neural Network_第3张图片
B 损失函数和优化
鉴于我们提出的数据集的伪MOS值是由FRIQAS生成的,因此可以产生一些异常样本(不准确的质量标签)。 因此,采用Huber损失来提高 网络的不稳定。 为了确保导数在所有程度上都是连续的,采用了Huber损失(作为Huber损失的平滑近似)。
这里提出的CaHDC具有以下特点:1)多个分支从主干网的不同层分离,使我们的网络能够评估分层质量退化。 2)第一个完全连接的层只有100个维度,极大地减少了网络参数的数量,这可以大大加快网络的优化,同时缓解过度拟合。 3)我们不会将不同层的特征拉入列向量,然后将它们集成,而是用卷积运算将它们降采样到相同的尺度进行集成,从而减少特征的数量并保留了特征的空间信息。 4)提出的CaHDC是一种具有高性能和泛化能力的轻量级网络。
C.训练策略和细节
根据RANK[17],为了捕获上下文信息,输入子图像的大小应该不少于原始图像的三分之一, 在我们的实验中,当训练时,原始图像的伪 mos/mos 被赋予其带有 3003003的随机采样补丁(这样的输入大小足以捕获上下文信息)。为了进行测试,将图像均匀地分成4块,大小为3003003,通过平均这些预测得分得到最终的质量得分。
在训练过程中,将一小批随机采样图像补丁输入到CaHDC和Adam优化算法中进行培训。 Adam的参数设置为β1=0.9,β2=0.999,ε=10−8。 tAdam的参数设定为1 = 0.9,2 = 0.999,= 10-8。学习速度设定为 在这里插入图片描述
其中α0是初始学习速率,d是衰减因子,S0是衰减速率,s是训练步骤数,αm是最小学习速率。 α<αm时,相当于指数衰减函数。 该函数应用较大的学习率来训练模型,并随着训练的进行而降低学习率,直到达到最小的学习率。对于预训练,a0 = 10-4,am = 10-5,s0是训练一个时期所需的步数。对于微调,全局学习率固定为10-5,分层网络的学习率乘以0.01。

五、实验结果

五个基准IQA数据库的实验结果证明了所提出的CaHDC的效率。 此外,跨数据库验证实验进一步证明了所提出的CaHDC的高泛化能力实验结果和消融实验在这里不做过多的解释,大家可以在论文里仔细看看。

总结

在本工作中,在HVS的层次感知机制的启发下,我们引入了一种新的基于IQA的基于CNN的BIQA方法。 满为了满足大数据对CNN优化的需求,主要建立了一个高质量的IQA数据集,其中包含10,000幅参考图像和1050,000幅失真图像。从所提出的数据集的预训练中受益,我们的模型可以有效地缓解过度拟合。 然后,提出了一种具有分层退化级联的级联分层网络 它可以有效地测量层次退化对整体图像质量的影响。 最终,通过联合优化特征提取、分层退化级联和端到端的质量预测,CaHDC可以更好地了解质量退化的本质 。
以上就是今天要写的内容,针对本篇论文我简单介绍了一下论文内容、网络框架以及自己对公式(损失函数和优化)的理解,希望对大家有所帮助。然后自己对这篇文章还有不理解的,希望能与大家一起讨论。

你可能感兴趣的:(深度学习,图像质量评价,神经网络,卷积)