【热成像超分辨率】Channel Split Convolutional Neural Network (ChaSNet) for Thermal Image Super-Resolution

要点1

本文为了解决深度结构用于热成像图像的超分辨时因为结构复杂提取到的特征比较冗余的问题。本文提出一个Channel Split卷积网络来减少网络中出现的冗余的特征。Channel split能够从低分辨图像中提取非常有用的特征,它可以帮助保护恢复的SR图像中的高频细节。

要点2

本文主要贡献:

(1)提出ChasNet,有效提高Thermal图像的超分结果。

(2)使用通道注意力,采用平均值和标准差池化提取出特征的统计信息。

(3)为了解决数据集偏移的问题,提出一种融合方法来提高SR性能。

(4)本文提出的结构在不同的场景下性能都超过了现有的SOTA算法。

(5)对本文提出的网络各个部分都进行详细的实验并且为每一部分都进行了分析和合理选择。

(这个主要贡献多少有点啰嗦)

要点3

本文提出的方法其实包括两个结构,分别对应PBVS2021的两个track,第一个track的任务是实现LR热成像图像x4倍的超分辨,并消除x4放大产生的噪声。第二个track的任务是解决domain shift(可以理解为数据集偏移,比如成对的thermal图像其实在不同的分布中,分布有差异就可以理解为domain shift),放大尺度x2。

要点4

为第一个Track设计的结构:
【热成像超分辨率】Channel Split Convolutional Neural Network (ChaSNet) for Thermal Image Super-Resolution_第1张图片
它包括:浅层特征提取模块(SFE)、深层特征提取模块(DFE)、图像重建模块(IRec).
其中字母的含义以及common block:

【热成像超分辨率】Channel Split Convolutional Neural Network (ChaSNet) for Thermal Image Super-Resolution_第2张图片
common block整体的结构类似densenet的稠密结构,每个csb中也有稠密结构并且增加了Res块,Res块中比较核心的就是增加了像素级和通道级的注意力,通道级注意力就包括了钱庙提到的两种操作,一个是平均池化,一个是偏移池化(deviation pooling)(这个deviation pooling具体是怎么操作的,还有待看代码)

其中的Channel split思想其实是体现在common block中的CSB中的,这个思想就是将特征图分别送入两个resblock中和一个稠密结构中,残差结构中利用残差结构和注意力对特征可进行增强,稠密结构中提高特征的密度,两者采用不同的方式对特征进行了增强处理,最终再cat到一起,获得非常好的特征。

这里面还有个layer attention的结构,它的数学表达式如下:
在这里插入图片描述
Fc其实就是1x1卷积层,其实这个式子表达的操作就是每两个CB块的特征merge到一起,然后经过Fc再和下一个块的特征merge到一起经过Fc,以此类推下去,最后就得到了XLA。这样最终其实就得到了一个注意力权重,它与每个CB块的特征图都相关,最终再与整体特征图Cat到一起。这样一来,网络可以通过学习的过程来通过layer attention来学习对不同深度的特征基于不同程度的关注,就获得了更少冗余的特征图。

这一部分在训练时(Track1)采用L1损失进行训练。

要点5

为第二个Track设计的结构:
【热成像超分辨率】Channel Split Convolutional Neural Network (ChaSNet) for Thermal Image Super-Resolution_第3张图片
这个结构是基于Unet的思想,因为Track2采用的数据集是含有数据偏移的(数据不同源,并且配准不一定完全准确),所以涉及到域转移的问题,因为数据集的原因,恢复出的数据的groundtruth其实应该是和输入不在同一个分布中(因为是由不同的Thermal传感器采集到的),而大多数解决域转移到额问题的方法都是采用类似Unet的结构(比如图像分割,生成的分割图其实和输入不是在一个域中),所以本文也采用这种U形结构。

因为域转移的问题更复杂些,所以本文在训练这个结构时,采用的损失函数也就更复杂一些,否则训练出来的效果非常有限。

训练这个结构的损失函数包括L1损失、生成损失和SSIM损失:
在这里插入图片描述
这里的GAN损失是因为作者在训练时,还使用了LSGAN的里的判别器结构,这个U形结构就可以看做生成器,生成损失就如下:
在这里插入图片描述
D表示判别器,其实也就是个二分类,如果ISR更像groundtruth,D(ISR)就更接近与1,可以把D(ISR)理解为网络恢复出的ISR是和groundtruth同一分布的图像的概率,这个概率肯定是越高越好,那么也就是这个损失越小越好,但是这里还需要对判别器进行优化,判别器的优化函数如下:
在这里插入图片描述
这个损失越小,也就能让判别器能够更好的了判别ISR是否与IHR相似。

你可能感兴趣的:(计算机视觉,深度学习,计算机视觉,深度学习,神经网络,人工智能)