文献阅读1

基于多级注意力密集残差网络的单幅图像超分辨率重建 - 中国知网 (cnki.net)

问题 方案 效果
未能充分利用图像全局信息和局部信息,导致重构结果缺失源图像部 分关键信息的问题 网络以密集残差为基础,融合了图像 的多尺度特征信息,保证了网络在深度上不损失特征信息的同时,获得更多不同感受野下的特征信息,避免源图像关键 信息的过度丢失。此外,为从具有低频冗余信息的低分辨率图像中恢复包含足够高频信息的高分辨率图像,网络还结合 空间注意力与通道注意力机制,以不平等的方式处理不同尺度下的低分辨率特征。 可有效突出特征图中的高频分量,使网络更好地学习并拟合标签图像的特征信息,提升 图像超分辨率重建性能

 这篇论文结合了多尺度和注意力机制。相对传统的单尺度模型,多尺度模型可以利用不同感受野的信息。但是相对于单一多尺度模型,可能会存在信息的冗余,所以作者又结合空间注意力机制和通道注意力机制对多尺度特征进行增强。

单一尺度网络的缺点

利用单尺度网络提取图像特征,在损失函数的约束下, 使网络提取到由低分辨率图像恢复到高分辨率图像 所需的纹理细节特征,从而获得图像高频细节信息, 有效提高了重建图像的视觉效果。

但是通过单尺度网络提取特征会存在部分特征信息丢失,导致超分辨重建的图像纹理细节不完整、图像质量不佳。

相关工作

SRCNN是该领域的开山之作。为了解决参数量太多问题,研究者做出了很多努力。Dong提出了FSRCNN,该方法在低分辨率空间进行运算,在网络的最后进行上采样。VDSR利用残差的思想,学习网络的残差部分,减少了计算量。RDN是基于密集残差,解决了网络的梯度消失和收敛慢的问题。SRGAN利用对抗的思想,利用生成器和鉴别器对抗训练,生成与自然图像分布一致的纹理细节。但是这些方法都是基于单一尺度对图像进行提取特征,忽略了不同尺度上的图像特征。

为此,近几年提出了多尺度模型。多尺度模型利用不同尺度的卷积核提取图像不同尺度层的特征,然后再进行融合,缓解了图像特征信息的丢失。

EDSR 利用多尺度残差网络来消除梯度消失和梯度爆炸的问题, 同时其在多尺度网络上添加了一个固定的超参数来 增强网络对各个尺度上特征信息的拟合能力,并去除了BN,从而减少了大量参数。

多尺度模型解决了单尺度模型支路数过少无法充分提取特征信息,因此通过增加支路数来增强网络的互补信息能力,但是这也导致了多尺度信息冗余问题。

网络结构

该模型由四个主要模块组成,各模块 构成及功能如下:特征提取模块、多尺度深层特征提 取模块、注意力模块以及重构模块。

文献阅读1_第1张图片

浅层特征提取模块

密集连接可以保证各层信息不丢失,跳跃连接可以保证信息更好的传播。密集残差块是由10个密集块和一个残差连接组成。密集块是有3个密集连接的3*3卷积层组成。

多尺度深层特征提取模块

文献阅读1_第2张图片

 

 注意力模块

 文献阅读1_第3张图片

损失函数

重构损失

 重构损失:本 文 通 过 L1 损 失 函 数 对 标 签 的 高 分辨率图像与超分辨率重建后的高分辨图像进行约束,确保两类图像对应的像素点大致相同。

 梯度损失

为保证初始的融合结果中具有和标签图像一致的梯度信息,本文利用如下的梯度损失函数对感知模块做进一步优化。

 

实验 

训练数据与预处理

采用DIV2k数据集进行模型训练。首先通过对DIV2k随机裁剪出高分辨图像。 然后对其进行下采样得到对应的低分辨率图像。

网络训练及参数设置

本文采用重构损失和梯度损失,利用Adam优化器对网络进行优化学习,学习率设置0.0001。

在实验测试部分,选取Set5、BSD100、Set14、Urban100等高分辨率自然图像验证本文方法的有效性。

实验结果

文献阅读1_第4张图片

跨尺度多分支网络的单帧图像超分辨率重建 - 中国知网 (cnki.net)

问题 方法 效果
通过加深单一网络的深度提升图像质量,缺少利用图像自身信息来提升图像重建质量。 提出了跨尺度多分支的图像超分辨率网络。跨尺度模块探索图像内部相似区域的相关性,用于提升重建图像细节信息的能力。多分支可以重建图像中不同复杂度的部分。 表明该模型在 Urban100 和 Manga109 测试集上相比其他方法具有 更高的峰值信噪比和结构相似度。

相关工作

 SRCNN模型只有三层网络卷积层,首先通过9*9卷积核提取一组特征、然后通过1*1卷积核进行映射,最后通过5*5的卷积核结合空间领域预测最后的高分辨率图像。为了加速SRCNN,FSRCNN通过改变卷积核的大小和增加映射层的数量,在低分辨率图像上进行处理,实现超过40倍的加速度。VDSR借助 VGG 网络的灵感,将网 络层数加深到 20 层,引入残差结构解决了收敛速度慢的问题。EDSR去除了 SRResNet 中的批量归一化(Batch Normalization,BN)层,从而可以通过加大模型结构 来提升性能。从 SRCNN 至今各种基于卷积网络的重 建算法,都是将网络结构变得更深、更宽、更 复杂,图像特征信息提取更加 全面、具有更大的感受野,但是这些操作通常会使网络变得更加复杂、利用的信息也比较冗余。

构建了一种跨尺度模块,该模块可以利用图像 中相似区域的相关性,通过图像内部的高分辨率区域 来辅助重建图像中相似的低分辨率区域,从而加强恢 复图像细节信息,提高图像整体质量,获得更好的视 觉效果。

构建了一个多分支网络结构,依据图像自身具 有的结构特性,将不同复杂度的子图像分别用不同网 络重建,来降低重建时的计算开销。

跨尺度多分支网络

跨尺度模块

图像的自相似性

图像的内部包含很多相似的地方。比如说下图中窗户结构,尽管在图像中的远近高低各不相同,但是它们具有相同的结构。因此,在图像超分的过程中,可以利用图像的长距离特征的相似性,加强恢复细小结构的纹理信息。

文献阅读1_第5张图片

 卷积和跨尺度模块的特点

卷积是以相同的方式提取图像的全部特征。但是这种同等对待对大尺度和小尺度区域,导致小尺度区域重建效果不理想。引入跨尺度模块,可以利用提取到的大尺度区域特征辅助重建小尺度区域。

文献阅读1_第6张图片

 文献阅读1_第7张图片

文献阅读1_第8张图片

 文献阅读1_第9张图片

 多分支网络

文献阅读1_第10张图片

 整体的网络架构

文献阅读1_第11张图片

 将整幅图像分成若干个块,每个块通过分类网络,判断网像是属于哪一类,然后经过网络后进行融合。

文献阅读1_第12张图片

 文献阅读1_第13张图片

 实验

实验数据集和设置

本文采用DIV2K数据集。通过Bicubic进行0.6,0.7倍的下采样生成更多图像,增加训练时的数据量。批量大小为16,使用L1损失函数,Adam优化器,余弦退火策略调整学习率。在测试过程中,将 LR 图像 裁剪成 32 * 32  大小的子图像,步长为 28,通过将 4 个像素 点的重叠区域进行平均,以免重建后的图像出现明显 分割痕迹。

文献阅读1_第14张图片

多尺度密集残差网络的单幅图像超分辨率重建 - 中国知网 (cnki.net)

问题 方法 效果
使用单种尺度的卷积核提取图像的特征信息,容易造成细节信息的遗漏。 结合GoogleNet思想、残差网络思想、密集网络思想,提出多尺度密集残差网络。使用3种不同尺度的卷积核,采集底层特征。 验数据以及效果图证明本文算法能够较好地恢复低分辨率图像的边缘和纹理信息。

理论基础

卷积神经网络

 CNN 对图像的几何变换、形变、光照等具有一定程度的不 变性,以较小的计算量就能完成整幅图像的特征扫 描。端到端的深度学习算法,直接通过学习CNN提 取的特征,基于原始数据的特征学习,逐层进行特征提取和特征融合。随着网络的不断加深,越深的 CNN层提取的特征越抽象,越抽象的特征越可以较 大幅度地提升目标检测和识别精度。一般CNN由 以下几个核心部分组成:输入层、隐藏层、输出层。

文献阅读1_第15张图片

 CNN通过3个方法,即局域感受野、权 值共享和次抽样实现识别图像的位移、缩放和扭曲 不变性。局域感受野指的是每一层网络的神经元只 与上一层的一个小邻域内的神经单元连接,通过局域感受野,每个神经元可以提取初级的视觉特征;权 值共享使得CNN具有更少的参数,需要相对较少的 训练数据;次抽样可以减少特征的分辨率,实现对位 移、缩放和其他形式扭曲的不变性。

残差网络

 在解决复杂问题上,深层网络比浅层网络具有更好的效果。目前优化神 经网络的方法都是基于反向传播的思想,即根据损 失函数计算的误差通过梯度反向传播的方式,指导权值的更新优化。

但是网络的加深使得梯度弥散问题容易出现。一般解决梯度弥散的方法 为:1)选择合适的激活函数,如Relu;2)批规范化 (BN)。通过规范化操作将输出信号规范化到均值 为0、方差为1,从而保证网络的稳定性。

Relu激活 函数在x>0时可以有效地缓解梯度弥散问题。但 是随着训练的进行,当x<0时对应的权值参数无法更新,影响网络的收敛。BN法的使用伴随的是网 络参数的大量增加,同样会使得网络收敛时间延长。 相比以上两种方法,He等人提出的残差网络 (ResNet)方法效果更佳。

文献阅读1_第16张图片

方法

多尺度残差网络结构主要由输人底层特征提取(SFE)、残差密集块(RDB)、局部特征 融合(LFF)、全局特征融合(GFF)、全局残差学习 (GRL)、重建和输出组成。

文献阅读1_第17张图片

SFE 模块

 SFE模块包括3种不同的卷积核,尺度分别为 3×3、5 x 5和7×7。该模块引人Inception Net思想,使用不同尺度的卷积核对输入 图像进行卷积处理,相比前人使用单个卷积核的图 像超分辨率深度学习算法,本文算法可以从低分辨 率图像中得到更多的细节信息,有利于低分辨率图 像的细节恢复

RDB模块

文献阅读1_第18张图片

 LFF

 局部特征融合

GFF

全局密集特征融合

实验

参数设置

本文采用学习率衰减的方法防止训练时间过长。 在本实验中学习率初始化为0.001,每训练30个 epoch,学习率衰减一半。采用随机梯度下降法 (SGD)训练网络。

训练集

通过旋转、缩放等方式对数据进行 增强,使得数据扩充数倍,可以有效避免过拟合。测 试集使用Set5、Set14、BSD100、Urban100等标准图像 超分辨率重建评价数据集。

训练过程

先对训练数据集中每幅图像按照步长为16 进行截取,得到若干个分辨率为128×128像素的原 始HR图像块,然后随机取64个图像块作为一个batch。

实验结果分析与对比

实验部分首先将本文算法与插值法、SRCNN 、DRCN和LapSRN算法在SetS数据集的 单幅图像上进行测试。

文献阅读1_第19张图片

基于注意力机制与多尺度特征融合的人脸表情识别 - 中国知网 (cnki.net)

问题 方法 效果
忽略了多尺度特征的融合和中间特征的改善 本文提出了一种基于注意力机制与多尺度特征融合学习的人脸表情识别方 法,该方法由浅层特征提取模块和多尺度特征融合模块构成,能从深到浅提取更多有价值的信息,并有效改善表情 中间特征。首先输入表情图像到浅层网络和骨干网络,分别获取浅层特征和深层特征;然后在浅层特征提取模块中 加入注意力机制,对浅层特征进行加强或抑制;最后融合浅层特征与深层特征,构造人脸表情的多尺度融合特征,并 通过分类器将人脸表情图像分为7种表情 实验表明该方法能获取更丰富的人脸表情 信息,且具有更强的泛化能力。

引言

深度学习能从海量 数据中自主学习所需特征,避免了复杂的人工提取特征过程。

较深的神经网络能获取人脸表情的形 状、颜 色等整体特征,但容易忽略一些细节特征。因此, 本文提出了一种基于注意力机制与多尺度特征融 合的人脸表 情 识 别 方 法,对 人 脸 图 像 的 表 情 进 行 归类。该方 法 采 用 多 尺 度 特 征 融 合 的 计 算 结 构, 将浅层特征提取模块的浅层特征与深层特征相融 合,以提取更多细节信息,增强网络鲁棒性;另外, 本文改进了 通 道 - 空 间 注 意 力 模 块,并 将 其 引 入 到浅层特征 提 取 模 块,使 模 型 能 有 效 学 习 浅 层 显 著性特征;最 后 采 用 人 脸 表 情 识 别 的 公 开 数 据 集 JAFFE和 KDEF 对本文 的 方 法 进 行 实 验,以 验证该方法的有效性。

方法

首 先,通 过 浅 层 特征提取模 块 提 取 人 脸 表 情 的 浅 层 特 征,并 加 入 通道-空间 注 意 力 模 块 学 习 浅 层 显 著 性 特 征;然 后,利用多尺 度 特 征 融 合 模 块 构 建 多 尺 度 融 合 特 征的计算结构,使模型提取到更丰富的表情特征; 最后,使用该多尺度融合特征计算表情类别概率, 实现人脸表情识别。

文献阅读1_第20张图片

浅层特征提取模块

在人脸表情识别任务中,浅层特征的提取非常 重要。它描述了人脸表情的图像纹理等信息,且分 辨率较高,对细节信息较为敏感。

本文选择了 Huang等[21]提出的 DenseNet121 网络来提取浅层特征。DenseNet网络是一种具有 密集连接的卷积神经网络,具有加强特征传递、缓解 梯度消失等优点,有利于提取人脸表情特征。浅层 网络由 DenseNet121 网 络 的 Block1 和 Block2 组 成。

然后通过注意力模块,对于浅层特征赋予不同的权重,加强或抑制其中的元素,学习人脸表情的显著性特征。

通道-空间注意力模块

浅层特征虽然能得到表情的细节信息,但对表 情变化突出的特征区域给予的关注不够,因此本文 在提取到的浅层特征上加入通道-空间注意力模块, 给其分配不同的权重。

文献阅读1_第21张图片

 

 多尺度特征融合模块

浅层网络的感受野较小,虽然有较强的几何细 节信息表征能力,但是欠缺对表情图像抽象性及整 体性的概括。因此本文将其与深层特征相融合,以 此学习更全面有效的特征表示,更加完整地提取人 脸表情信息。

这里的多尺度特征融合是浅层特征和深层特征的融合。浅层特征的感受野较小,深层特征的感受野较大。浅层特征具有较强的几何细节,深层特征具有抽象和整体性。

深度多尺度融合注意力残差人脸表情识别网络 - 中国知网 (cnki.net)

问题 方法 效果
该模 型基于 ResNet-50 残差网络,设计了新的注意力残差模块,由 7 个具有三条支路的注意残差学习单元构成,能够 对输入图像进行并行多卷积操作,以获得多尺度特征,同时引入注意力机制,突出重点局部区域,有利于遮挡 图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息,简化网络复杂度,在保证感受野的 情况下减少计算量,实现网络抗过拟合效果 在 3 组数据集上的实验结果表明,本文提出的算法均优于对比的 其他先进方法。

引言

人脸表情识别主要包括预处理、特征提取和 分类识别 3 个部分。其中,算法识别精度高低 主要由特征提取方法决定。人脸表情特征提取方 法主要分为基于传统特征提取的方法和基于深度学习的方法。

传统的特征提取方法主要包括局部二值模式 (LBP) 、类 Haar 特征 、Gabor 小波变 换  和方向梯度直方图 (HOG) 等。

一般来说,深层网络更易 提取到具有丰富语义信息的深层特征。但过深的 网络容易出现梯度爆炸或梯度消失现象。针对这 一问题,He 等 [13] 学者提出了深度残差网络 (ResNet), 利用短路链接使得梯度正常回传,较好地解决了 网络退化问题。但训练参数量仍旧较大,且残差 网络并没有考虑不同尺度特征之间的相互关系对 特征识别的影响,导致大量有效特征丢失。

上述研究均使用完整特征图作为特征输入, 然而在实际分类任务中,特征的作用程度是不同 的。为了突出对特征识别有效的信息,一些研究 引入了注意力机制。

1)设计了一个由 7 个注意力残差学习单元构 成的注意力残差模块,注意力残差学习单元由 2 条包含卷积层的支路和 1 个短路链接构成,将 融合后的特征经过注意力机制,对输入图像进行 并行多卷积操作,以获得图像多尺度特征,突出 局部重点区域,有利于遮挡图像特征学习;

2) 提出多尺度融合模块,网络整体将各个注 意力残差模块的特征输出进行多尺度融合,以获 取更丰富的图像特征;

3)在网络模型中增加过渡层以去除冗余信 息,在保证感受野的情况下简化网络复杂度。并 使用全局平均池化+ Dropout 的设计减少参数运 算,使网络具有更好的抗过拟合性能。

相关工作

 ResNet网络结构

文献阅读1_第22张图片

SE-Net 注意力模块

SE-Net 是 Hu 等 [16] 学者提出的一种通道注意 力网络,核心为特征压缩操作 和特征激励操作 。 从通道维度将 的输入特征图压缩 为[1,1,C]  的输出特征图,使得每个二维特征通道 转换为一个具有全局感受野的实数。 通过对 每个通道生成权重,显式建模特征通道间的相关 性,并逐通道加权到原始特征图上,完成通道维 度上的特征重标定,加强关键特征,抑制非显著 特征,从而提高网络的整体表征能力。

深度多尺度融合注意力残差网络

 基于 ResNet-50 残差网络,本文提出一种深度 多尺度融合注意力残差网络 (DMFA-ResNet),该 网络由注意力残差模块 (attention residual module, ARM)、多尺度特征融合模块、过渡层、全局平均 池化层、Dropout 和 Softmax 分类层构成

文献阅读1_第23张图片

 深度神经网络的输入图片一般较大,为避免 后续计算量爆炸,需要将输入图片进行下采样后 再输入进卷积神经网络。原 ResNet 网络将输入 图像经过一个 7×7 大卷积层和最大池化层后,再 输入进后续残差模块。7×7 大卷积层和最大池化 层将输入图片的分辨率从 224×224 下采样至 56×56,在减少计算量的同时最大程度保留了原始 图像细节信息。DMFA-ResNet 使用 3 个 3×3 小卷 积层代替原 7×7 大卷积层,在保证与原网络层相 同感受野的前提下,进一步提升了网络深度,使 得网络能够提取到更深层次的语义信息。

注意力残差模块

注意力残差学习单 元由两条残差学习支路、一条恒等映射支路和 SE-Net 注意力模块构成。为了使输入经过 3×3 卷 积层后的特征图维数相同,通过残差学习支路的 第一个 1×1 卷积层对输入进行降维。通过对输入 图像进行并行的多卷积操作,使得网络能够提取 到不同深度的多尺度表情图像特征。再将这两条 残差学习支路所提取到的特征采用 Concat 方法进 行融合,即将两个需要融合的特征图的通道进行 拼接,将两条残差学习支路输出的特征图融合后的 特征通过 1×1 卷积进行升维,确保输入、输出的 维数相等。最后利用注意力机制突出重点局部区域, 获得图像更准确的特征以提高识别准确率,有利 于遮挡图像的特征学习。

文献阅读1_第24张图片

 过渡层

随着网络深度不断加深,运算参数量持续增 多,容易使得网络过度学习输入与输出之间的映 射关系,将大量干扰信息错认为重点特征。

在注意力残差模块之间引入由一个 3×3 卷积 层和最大池化层组成的过渡层以去除冗余信息。 3×3 卷积层能够在不改变特征图大小的情况下增 大维数,提升网络线性转换能力。最大池化层能 够对输入图像进行下采样以减小参数矩阵的尺寸 以及卷积层参数误差造成估计均值的偏移 

文献阅读1_第25张图片 

 多尺度特征融合模块

经过各个注意力残差模块后,人脸表情图像 的多尺度特征具有不同特点:浅层特征图尺寸较 大,通道数较少,具有丰富的细节信息;深层特征 图尺寸较小,通道数较多,包含丰富的抽象语义 信息。因此本文设计了一个多尺度特征融合模块 将 3 个注意力残差模块产生的多尺度特征图进行 融合。首先将前两个注意力残差模块的输出特征 经过最大池化操作下采样至 7×7×128 和 7×7× 256;然后通过 Concat 通道融合方法将下采样过 后的输出特征图和最后一个注意力残差模块的输 出特征图进行融合;再将融合后的特征图使用 1×1 卷积核进行升维,最终得到具有丰富特征信 息的 7×7×1024 输出特征图

全局平均池化+随机失活

通常情况下,神经网络都会添加全连接层减 少特征位置对分类带来的影响。但人脸基本位于 图像中央且占据绝大部分像素,位置信息并不重 要。因此采用全局平均池化层代替全连接层加强 特征图与类别的一致性,直接对空间信息进行求 和实现降维,极大地减少了网络参数。Dropout 原 理又名随机失活原理,是指在网络训练过程中随 意抛弃某些神经元,破坏特征信息之间密切的交 互作用,使得网络不会过于依赖某些局部特征, 增强模型泛化性。

本文使用全局平均池化+随机失活设计,简化 网络复杂度,减少运算量,避免过拟合现象,进而 提高网络泛化性。 

你可能感兴趣的:(单图像超分辨,python,计算机视觉,深度学习)