【对比学习超分辨】Blind Image Super-Resolution via Contrastive Representation Learning

要点1

本文动机:

现有SR方法都是假定退化是一个已知的分布然后进行的,所以产生了盲超分辨。真实场景下的数据通常具有三个问题:multi-source、spatially variant、unknown distribution。现有盲超分辨方法通过退化估计来解决真实场景的问题,很好地解决unknown distribution,不能很好地解决前两个问题。本文的动机就是解决前两个问题。

基于上述动机,本文设计了一个CRL-SR网络,它基于对比学习,让网络能够学习到 multi-modal 和 spatially variant distributions.

要点2

整体结构如下:
【对比学习超分辨】Blind Image Super-Resolution via Contrastive Representation Learning_第1张图片
这幅图中,橙色箭头的过程是在训练和推理的时候都用到的过程,其它黑色的箭头仅仅是在训练过程中需要的操作。Degradation remover可以把低分辨的图像Ul的退化信息移除掉,Details remover可以把高分辨groundtruth Ih的高频信息移除掉,也就是两者最终提取出的是高分辨Ih和低分辨Ul的最根本的空间位置信息,我们通过比较两者的空间位置信息,从而获得对比loss Lbc,让两者提取出的空间位置信息更相似,这样训练下来也就让最终我们要用到的Degradation Remover提取空间位置信息的能力更强。

还有一个Lsrnce,这个loss也是一个对比的loss。这个loss是分别对Ih和Is进行特征提取,然后对他们的特征取一个对比loss,也就是在恢复出的高分辨和真实的高分辨图像中,我们希望他们在特征空间上的距离也是非常近的。当然,为了训练好特征提取器Ef,我们需要有一个Drec恢复出高分辨的图像,如果不加这一步,可能训练出的Ef会自动调节两者在特征空间的距离,也就起不到增强网络性能的效果。

就上图来说,我还不能够看出对比学习的正负样本都是什么,所以这个图其实画的并不算清晰。而且感觉Degradation remover和Details remover的物理意义也比较牵强,不知道究竟是如何实现这些所谓的remover功能的。

对于Degradation remover和Details remover其实下文中有更准确的说法,那就是这两个东西其实是用来提取分辨率不变特征而丢弃分辨率变化特征的,这一点看起来还说得通,通过对比学习,让从高分辨和低分辨提取出的特征更加相似确实能达到这样的效果,因为高分辨和低分辨图像的区别仅仅在于分辨率不同,让两者提取出的特征更加相似,也就是让特征提取器学习到提取出分辨率不变的特征。如此倒推回去,文中用到两个不同的特征提取器去做Lbc损失(Degradation remover和Details remover),这是因为两个图中我们要提取出的特征并不相同(虽然都是分辨率不变特征),低分辨率中,它因为高频信息很少,应该有退化信息,退化信息导致了分辨率低,所以我们要提取除了退化信息以外的特征,所以它叫做Degradation remover,另一个是高分辨率,其中没有退化信息,只有细节信息,而细节信息多导致了它分辨率高,所以我们要提取除了高频信息意外的特征,所以它叫做Details remover。如此对比训练之后,最终Degradation remover就能够提取出图像的最根本特征(不包含退化特征和高频信息的最有用的特征),而用这个特征取恢复超分辨图是最高效且有用的。

要点3

了解了整体的思路,这一部分我们来看其中是如何构建正负样本的。

对于Lbc来说,我们是希望fl和fh越相似越好,那么对于fl来说,fh就是正样本。那么负样本是谁呢?实际上,正如图里画的那样,Degradation remover和Details remover各自会生成高维的特征向量,如果是M维的,我们可以看成是各自生成了M个特征向量,也就是有M个fl和M个fh,那么其中一个fl对应的正样本也就是fh,同样的其中一个fh对应的正样本也是fl,那么fh和fl与其他的M-1个fh和fl其实就是互为负样本的(这里构造的负样本感觉多少有点不严谨),这也就出现下面的式子:
【对比学习超分辨】Blind Image Super-Resolution via Contrastive Representation Learning_第2张图片
在这里插入图片描述
对于第二个对比损失的loss,它构建的正负样本从下图可以直接看出:
【对比学习超分辨】Blind Image Super-Resolution via Contrastive Representation Learning_第3张图片
这个很好理解,就让高分辨和生成的高分辨之间的特征尽可能相似,而负样本是前面说的从低分辨中提取出的分辨率不变特征,高分辨的特征要和这个特征尽可能拉大距离。

这里我有一个小小的疑问,就是这个负样本中的分辨率不变特征肯定是包含在高分辨率的特征之中的,让这两个其中有一部分相似得东西距离越大会不会出现一定的问题?

总的来说,整篇论文的思想很新颖,但是这正负样本的构建方法很牵强。

你可能感兴趣的:(深度学习,计算机视觉,深度学习,机器学习,计算机视觉,人工智能)