【超分引导的低分图像知识蒸馏】

Super-resolution guided knowledge distillation for low-resolution image classification

(超分辨率引导的低分辨率图像分类知识蒸馏)

随着深度卷积神经网络的发展,高分辨率图像分类取得了良好的分类效果。然而,在自然场景中,低分辨率图像是非常常见的,诸如由网络摄像机拍摄的图像或用远离目标对象的透镜拍摄的图像。低分辨率图像分类是一个非常困难的问题,因为低分辨率图像尺寸小,包含的可区分特征少,导致分类性能急剧下降。为了解决上述问题,本文提出了一种超分辨率引导的知识提取(SRKD)框架,该框架由两个子网络组成:一个是用于增强低分辨率图像特征的超分辨率子网络,另一个是用于最小化高分辨率图像特征与超分辨率子网络输出图像特征之间差异的知识蒸馏子网络

介绍

深度卷积神经网络的发展极大地促进了计算机视觉任务,如图像分类、对象检测、图像或视频分割和图像平移。然而,训练这些网络需要大量的注释数据,并且训练图像都是高分辨率(HR)图像(例如,224 × 224或更大)。因此,直接使用在高分辨率图像上训练的模型来测试低分辨率(LR)图像将获得较差的性能。这些模型的性能将随着图像质量的下降而下降。
在本文中,我们将重点研究低分辨率图像的分类。大多数现有的分类模型(VGG 、GoogleNet、ResNet)是在高质量和高分辨率的数据集上训练的(如,Imagenet )。然而,在真实世界应用中,期望对象的区域可能相对较小且模糊,诸如由低清晰度设备和网络摄像机捕获的图像,在这些情况下,图像分辨率相对较低。将在高分辨率图像上训练的模型直接应用于这些低分辨率图像不能实现良好的性能。此外,更换现有低清晰度摄像头的成本非常昂贵。因此,我们需要找到一个有效的模型来解决甚低分辨率识别(VLRR)问题。
目前,用于处理LR图像分类的方法主要有两种类型。一是利用HR图像的特征信息和语义信息。Wu等人提出了一种简单有效的无监督深层特征转移算法,用于LR图像分类,该算法使用HR图像特征作为伪标签。Lu等人提出了深耦合ResNet(DCR)模型,该模型不仅考虑了HR和LR特征的可区分性,还考虑了它们之间的相似性。Zhu等人提出使用教师-学生学习范式从HR视觉数据上预先训练的深度模型中提取有用的特征信息。Pei等人提出了一种端到端的一致性引导网络,该网络最小化退化图像和清晰图像之间的类别分布、特征分布和视觉注意力。解决VLRR问题的另一种方法是利用超分辨率技术将LR图像恢复为HR图像。Bai等人提出了一种采用生成式对抗网络(generative adversarial network,GAN)从LR人脸图像直接生成清晰的HR人脸图像的算法。Zangeneh等人提出了一种新的使用深度卷积神经网络进行低分辨率人脸识别的耦合映射方法。为了将LR还原为HR,Zou和Yuen 将SR问题建模为具有两个约束的回归问题,一个是数据约束,另一个是判别约束。
本文提出了一种超分辨率引导的知识提取(SRKD)框架,用于自然场景中的LR图像分类。我们的方法分为两步:首先,我们基于GAN训练一个SR子网络,并在鉴别器中引入分类损失,以促进生成器生成更好的HR图像。然后,利用SR子网络生成的真实的HR图像和伪HR图像训练蒸馏子网络。然后,利用SR子网络生成的真实HR图像和伪HR图像训练蒸馏子网络。对原始图像进行降采样,得到降采样因子f ∈ {2,4,8}的LR图像。特别地,我们的方法在非常低分辨率的图像上实现了良好的结果,诸如具有下采样因子f = 8的自然场景图像。
我们在Pascal VOC 2007数据集和CUB-200-2011数据集上测试了我们的方法。与基线相比,该方法在低分辨率自然场景图像中取得了较好的效果。

贡献

1)据我们所知,在低分辨率图像分类领域,我们是第一个将超分辨率子网络和蒸馏子网络融合在一起的。培训阶段分为两个步骤,测试阶段采用端到端的方法
2)我们使用GAN重建高分辨率图像,并在鉴别器中加入分类损失,以指导生成器生成更清晰的高分辨率图像。
3)在极低分辨率的情况下,与基准模型相比,该方法在Pascal VOC 2007测试集上的mAP提高了30.4%,在CUB-200-2011测试集上的分类准确率提高了60.37%。

相关工作

Super-resolution technique

图像超分辨率(SR)是一类重要的图像处理技术,它是由LR图像重建HR图像。Ledig等人和Wang等人提出了一种用于图像超分辨率的生成式对抗网络(GAN)。Haris等人提出了深度反投影网络,利用迭代上下采样层生成LR图像和HR图像。Li等人提出了一种图像超分辨率反馈网络,用高级信息细化低级表示。Guo等人通过在LR数据上引入附加约束以减少可能函数的空间,提出了一种对偶回归方案。

Generative adversarial networks

最近,生成对抗网络(GANs)已经被应用于各种图像处理任务,例如图像到图像的转换和数据扩增。由于遗传自适应网络具有强大的生成能力,在图像超分辨率中得到了广泛的应用。GAN首先通过生成器将LR图像映射到HR图像,然后使用鉴别器来判断生成的图像是真还是假。Ledig等人提出了一种超分辨率GAN(SRGAN),其利用残差块构建并使用感知损失进行优化。Wang等人在SRGAN的基础上提出了一种增强型超分辨率GAN,该网络引入了未经批归一化的残差密集块残差(RRDB)作为基本的网络构建单元,并让鉴别器预测相对真实度而不是绝对值。

Knowledge distillation

为了压缩模型,减少计算量,Hinton等人提出了知识蒸馏(KD)。KD采用教师-学生学习范式,即用预先训练好的重量级模型教师网络来监督轻量级模型学生网络。这样就可以得到一个轻量级的模型,并且该模型的性能接近于重量级模型。最近,知识提炼已经被应用于域迁移。本文将低分辨率图像分类问题转化为一个区域迁移问题,即从高分辨率区域到低分辨率区域的区域迁移问题。我们的学生网络和教师网络是相同的分类网络(VGG16或ResNet50)。教师网络的输入是HR图像,而学生网络的输入是由SR网络生成的伪HR图像。这样,我们就可以充分利用HR图像的信息。

方法

我们的超分辨率引导知识提取(SRKD)框架由两部分组成,一部分是SR子网络,另一部分是提取子网络。整体网络结构如图1所示。SR子网络旨在将LR图像映射到HR图像,而蒸馏子网络旨在确定图像的类别。我们首先描述了我们提出的方法的总体架构,然后介绍了网络使用的损失函数。【超分引导的低分图像知识蒸馏】_第1张图片

Network architecture

Super-resolution Sub-network: 我们使用GAN来重建高分辨率图像。原始GAN由两部分组成,一部分是生成器网络G,另一部分是鉴别器网络D。发生器的输入是随机噪声,输出是真实的图像。鉴别器的输入是真实的图像和发生器产生的图像,输出是图像的真假。它交替地训练发生器和鉴别器。生成器希望生成更真实的图像来欺骗鉴别器,鉴别器希望能够从生成器中区分出真实图像和伪造图像。目标函数如等式(1)所示:【超分引导的低分图像知识蒸馏】_第2张图片
近年来,随着遗传自适应网络在图像平移中的应用,发生器的输入不再是随机噪声,而是图像。根据先前工作,等式(1)可以改写为:【超分引导的低分图像知识蒸馏】_第3张图片
受先前文献的启发,我们使用多个残差块和上采样块来构成生成器。鉴别器采用ResNet50作为主干网络。为了生成更清晰的图像,我们在ResNet50的末端连接了两个并行的全连接层。一个全连接层之后是一个sigmoid函数来判断图像是否真实。另一个全连接层之后是softmax函数以输出图像的分类结果。
Distillation Sub-network: 将低分辨率图像分类问题转化为一个从高分辨率域到低分辨率域的域迁移问题。因此,我们使用教师-学生范式,将高分辨率网络提取的特征作为监督信息,指导低分辨率网络的学习。高分辨率网络(教师模型)的输入是HR图像,而低分辨率网络(学生模型)的输入是由SR网络生成的伪HR图像。当训练低分辨率网络时,高分辨率网络的权重是固定的。高分辨率网络和低分辨率网络可以是基本的CNN模型,例如VGG、ResNet和DenseNet。

Loss of the SR sub-network

Pixel-wise MSE loss: 用于计算发生器生成的SR图像与HR图像之间的像素差,使SR图像在像素上更接近HR图像。其计算公式(3)如下:【超分引导的低分图像知识蒸馏】_第4张图片
Perceptual loss:
为了提高感知质量,我们还使用了感知损失。利用在ImageNet上预先训练好的VGG模型对SR图像和HR图像进行特征提取。然后,我们计算这两个特征之间的欧氏距离。其计算公式(4)如下:
【超分引导的低分图像知识蒸馏】_第5张图片
Adversarial loss: 为了生成更真实的图像,我们还加入了对抗损失。其计算公式(5)如下:【超分引导的低分图像知识蒸馏】_第6张图片
Classification loss: 为了鼓励生成器生成更清晰的图像,我们的鉴别器不仅输出图像是真实的自然图像的概率,还输出图像的类别信息。对于每一幅高分辨率图像和低分辨率图像,都有一个对应的类别标签,可以表示为( I L R I^{LR} ILRi I H R I^{HR} IHRi,yi),i = 1,2,···,N,其中yi表示第i幅图像的类别。目标损失函数的计算公式(6)如下:【超分引导的低分图像知识蒸馏】_第7张图片
其中C是类的数量。SR网络的总损耗如公式(7):在这里插入图片描述

Loss of the distillation sub-network

为了充分利用高分辨率图像的特征信息,利用高分辨率网络输出的特征信息来监督低分辨率网络的学习,使高分辨率网络输出的特征与低分辨率网络输出的特征之间的差异最小。Kullback Leibler(KL)散度也被称为相对熵。它度量同一空间中两个概率分布之间的差异。KL散度可以表示为:【超分引导的低分图像知识蒸馏】_第8张图片
分类损失也用于训练低分辨率网络,其计算公式(9)如下:在这里插入图片描述
其中yi表示图像 I L R I^{LR} ILRi的类别标签,并且C是类别的数目。蒸馏网络的总损失如方程(10)所示:在这里插入图片描述

你可能感兴趣的:(超分图像,计算机视觉,深度学习,人工智能)