文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”

作者提出了一种多任务end2end的优化神经网络,称之为MEON,其由两个子网络组成,Sub1失真类别识别子网络和Sub2 图像质量预测子网络,两个子网络间共享参数,那么失真类别识别这个很容易获得训练数据和GT的Sub的参数将对图像质量评估子网有很强的借鉴意义。另外作者将ReLU激活函数换成GDN(generalized divisive normalization 2009年IEEE J. Sel. Topics Signal Process里的文章“Reduced-reference image quality assessment using divisive normalization-based image representation”提出,可以进行图像质量评估)增加网络非线性。

文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”_第1张图片

1. GDN的意义:ReLU是目前最常用的激活函数,但其对统计数据有很强的依赖性,也就是需要大量的训练数据才能实现特定任务的良好性能,而这里我们希望做的是blind-IQA,所以将ReLU替换为GDN。GDN非线性变换的过程可以用公式表示:

其中yi是根据输入xi在空间位置(m, n)的激活响应,γ和β类似于BN层里的优化参数在训练过程中进行优化,所以GDN操作是一个可微的变换,可以同网络中其他层一起进行训练。从优化上看GDN同BN是相似的,但其本质上大有不同,“First, during testing, the mean and variance parameters are fixed and BN is simply an affine transform applied to the input. By contrast, GDN offers high nonlinearities especially when it is cascaded in multiple stages. Second, BN jointly normalizes all the activations across the mini-batch and over all spatial locations, which makes it an element-wise operation. Although the parameters in GDN are shared across the space similar to BN, the normalization of one activation at one location involves all activations across the channel, making it spatially adaptive”也就是说GDN具有比BN更强的非线性,更适合于图像质量评估模块,与其类似的操作是LRN:

文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”_第2张图片

2. 网络结构:网络的输入是

其中x(k)是原始图像(resize成256*256*3),p(k)是失真类别指示向量,q(k)是数据集的人工打分。原始图像输入Sub1进行分类任务,识别不同的失真类别,用作图像质量评估的pretrained model,这一块的loss就是交叉熵损失:

Sub2的权重有Sub1共享而来,而后经过全连接层得到一个得分向量s(k),将Sub1产生的失真类别结果与Sub2的得分向量相融合,融合需要满足三个条件,首先g函数必须是可微的,保证能融进网络;其次在g中针对不同的失真类型应该同等对待;最后g的设置需要合理,因此作者在这里对于g采取了加权概率求和的方式,即:

文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”_第3张图片

Sub2的loss选取L1范数(作者尝试了L2范数,效果不佳):

最终整个网络的loss为:

3. 实验:作者在4个常用的IQA数据集上(LIVE, CSIQ, TID2013, and the Waterloo Exploration Database)进行了实验,考虑了四种常见的失真类型(JPEG2000压缩(JP2K),JPEG压缩(JPEG),白高斯噪声污染(WN)和高斯模糊(BLUR)),共采用了5个评估标准,SRCC、PLCC、D-test、L-test和P-test,前两项指标结果如下:

文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”_第4张图片

另外作者还进行了ablition study,分别对多任务的模式和GDN进行消融,去除pretrained的实验时结果下降明显,所以提出的多任务学习框架和预训练机制是MEON成功的关键;在将GDN替换成ReLU时,性能下降;ReLU+BN性能类似:

文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”_第5张图片
文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”_第6张图片

你可能感兴趣的:(文章学习46“End-to-End Blind Image Quality Assessment Using Deep Neural Networks”)