WeisongZhao

总结深度学习端到端超分辨率方法

第一部分

https://blog.csdn.net/aBlueMouse/article/details/78710553

超分辨率技术（Super-Resolution, SR）是指从观测到的低分辨率图像重建出相应的高分辨率图像，在监控设备、卫星图像和医学影像等领域都有重要的应用价值。

本文针对端到端的基于深度学习的单张图像超分辨率方法(Single Image Super-Resolution, SISR)，总结一下从SRCNN到EDSR的发展历程。(排列顺序大致按论文中给出的4倍上采样结果的峰值信噪比(Peak Signal to Noise Ratio, PSNR)从低到高排列)

1. SRCNN

(Learning a Deep Convolutional Network for Image Super-Resolution, ECCV2014)

SRCNN是深度学习用在超分辨率重建上的开山之作。SRCNN的网络结构非常简单，仅仅用了三个卷积层，网络结构如下图所示。

SRCNN首先使用双三次(bicubic)插值将低分辨率图像放大成目标尺寸，接着通过三层卷积网络拟合非线性映射，最后输出高分辨率图像结果。本文中，作者将三层卷积的结构解释成三个步骤：图像块的提取和特征表示，特征非线性映射和最终的重建。

三个卷积层使用的卷积核的大小分为为9x9,，1x1和5x5，前两个的输出特征个数分别为64和32。用Timofte数据集（包含91幅图像）和ImageNet大数据集进行训练。使用均方误差(Mean Squared Error, MSE)作为损失函数，有利于获得较高的PSNR。

code: http://mmlab.ie.cuhk.edu.hk/projects/SRCNN.html

2. FSRCNN

(Accelerating the Super-Resolution Convolutional Neural Network, ECCV2016)

FSRCNN与SRCNN都是香港中文大学Dong Chao， Xiaoou Tang等人的工作。FSRCNN是对之前SRCNN的改进，主要在三个方面：一是在最后使用了一个反卷积层放大尺寸，因此可以直接将原始的低分辨率图像输入到网络中，而不是像之前SRCNN那样需要先通过bicubic方法放大尺寸。二是改变特征维数，使用更小的卷积核和使用更多的映射层。三是可以共享其中的映射层，如果需要训练不同上采样倍率的模型，只需要fine-tuning最后的反卷积层。

由于FSRCNN不需要在网络外部进行放大图片尺寸的操作，同时通过添加收缩层和扩张层，将一个大层用一些小层来代替，因此FSRCNN与SRCNN相比有较大的速度提升。FSRCNN在训练时也可以只fine-tuning最后的反卷积层，因此训练速度也更快。FSRCNN与SCRNN的结构对比如下图所示。

FSRCNN可以分为五个部分。特征提取：SRCNN中针对的是插值后的低分辨率图像，选取的核大小为9×9，这里直接是对原始的低分辨率图像进行操作，因此可以选小一点，设置为5×5。收缩：通过应用1×1的卷积核进行降维，减少网络的参数，降低计算复杂度。非线性映射：感受野大，能够表现的更好。SRCNN中，采用的是5×5的卷积核，但是5×5的卷积核计算量会比较大。用两个串联的3×3的卷积核可以替代一个5×5的卷积核，同时两个串联的小卷积核需要的参数3×3×2=18比一个大卷积核5×5=25的参数要小。FSRCNN网络中通过m个核大小为3×3的卷积层进行串联。扩张：作者发现低维度的特征带来的重建效果不是太好，因此应用1×1的卷积核进行扩维，相当于收缩的逆过程。反卷积层：可以堪称是卷积层的逆操作，如果步长为n，那么尺寸放大n倍，实现了上采样的操作。

FSRCNN中激活函数采用PReLU，损失函数仍然是均方误差。对CNN来说，Set91并不足够去训练大的网络结构，FSRCNN提出general-100 + Set91进行充当训练集。并且进行数据增强，1）缩小尺寸为原来的0.9, 0.8, 0.7和0.6。2）旋转 90°，180°和270°，因此获得了数据量的提升。

code: http://mmlab.ie.cuhk.edu.hk/projects/FSRCNN.htmlhttp://

3. ESPCN

(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network, CVPR2016)

作者在本文中介绍到，像SRCNN那样的方法，由于需要将低分辨率图像通过上采样插值得到与高分辨率图像相同大小的尺寸，再输入到网络中，这意味着要在较高的分辨率上进行卷积操作，从而增加了计算复杂度。本文提出了一种直接在低分辨率图像尺寸上提取特征，计算得到高分辨率图像的高效方法。ESPCN网络结构如下图所示。

ESPCN的核心概念是亚像素卷积层(sub-pixel convolutional layer)。网络的输入是原始低分辨率图像，通过三个卷积层以后，得到通道数为的与输入图像大小一样的特征图像。再将特征图像每个像素的个通道重新排列成一个的区域，对应高分辨率图像中一个大小的子块，从而大小为的特征图像被重新排列成的高分辨率图像。我理解的亚像素卷积层包含两个过程，一个普通的卷积层和后面的排列像素的步骤。就是说，最后一层卷积层输出的特征个数需要设置成固定值，即放大倍数r的平方，这样总的像素个数就与要得到的高分辨率图像一致，将像素进行重新排列就能得到高分辨率图。

在ESPCN网络中，图像尺寸放大过程的插值函数被隐含地包含在前面的卷积层中，可以自动学习到。由于卷积运算都是在低分辨率图像尺寸大小上进行，因此效率会较高。

训练时，可以将输入的训练数据，预处理成重新排列操作前的格式，比如将21×21的单通道图，预处理成9个通道，7×7的图，这样在训练时，就不需要做重新排列的操作。另外，ESPCN激活函数采用tanh替代了ReLU。损失函数为均方误差。

github(tensorflow): https://github.com/drakelevy/ESPCN-TensorFlowhttps://

github(pytorch): https://github.com/leftthomas/ESPCNhttps://

github(caffe): https://github.com/wangxuewen99/Super-Resolution/tree/master/ESPCNhttps://

4. VDSR

(Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR2016)

在介绍VDSR之前，首先想先提一下何恺明在2015年的时候提出的残差网络ResNet。ResNet的提出，解决了之前网络结构比较深时无法训练的问题，性能也得到了提升，ResNet也获得了CVPR2016的best paper。残差网络结构(residual network)被应用在了大量的工作中。

正如在VDSR论文中作者提到，输入的低分辨率图像和输出的高分辨率图像在很大程度上是相似的，也就是指低分辨率图像携带的低频信息与高分辨率图像的低频信息相近，训练时带上这部分会多花费大量的时间，实际上我们只需要学习高分辨率图像和低分辨率图像之间的高频部分残差即可。残差网络结构的思想特别适合用来解决超分辨率问题，可以说影响了之后的深度学习超分辨率方法。VDSR是最直接明显的学习残差的结构，其网络结构如下图所示。

VDSR将插值后得到的变成目标尺寸的低分辨率图像作为网络的输入，再将这个图像与网络学到的残差相加得到最终的网络的输出。VDSR主要有4点贡献。1.加深了网络结构(20层)，使得越深的网络层拥有更大的感受野。文章选取3×3的卷积核，深度为D的网络拥有(2D+1)×(2D+1)的感受野。2.采用残差学习，残差图像比较稀疏，大部分值都为0或者比较小，因此收敛速度快。VDSR还应用了自适应梯度裁剪(Adjustable Gradient Clipping)，将梯度限制在某一范围，也能够加快收敛过程。3.VDSR在每次卷积前都对图像进行补0操作，这样保证了所有的特征图和最终的输出图像在尺寸上都保持一致，解决了图像通过逐步卷积会越来越小的问题。文中说实验证明补0操作对边界像素的预测结果也能够得到提升。4.VDSR将不同倍数的图像混合在一起训练，这样训练出来的一个模型就可以解决不同倍数的超分辨率问题。

code: https://cv.snu.ac.kr/research/VDSR/

github(caffe): https://github.com/huangzehao/caffe-vdsrhttps://

github(tensorflow): https://github.com/Jongchan/tensorflow-vdsrhttps://

github(pytorch): https://github.com/twtygqyy/pytorch-vdsrhttps://

5. DRCN

(Deeply-Recursive Convolutional Network for Image Super-Resolution, CVPR2016)

DRCN与上面的VDSR都是来自首尔国立大学计算机视觉实验室的工作，两篇论文都发表在CVPR2016上，两种方法的结果非常接近。DRCN第一次将之前已有的递归神经网络(Recursive Neural Network)结构应用在超分辨率处理中。同时，利用残差学习的思想(文中的跳跃连接（Skip-Connection）)，加深了网络结构(16个递归)，增加了网络感受野，提升了性能。DRCN网络结构如下图所示。

DRCN输入的是插值后的图像，分为三个模块，第一个是Embedding network，相当于特征提取，第二个是Inference network, 相当于特征的非线性映射，第三个是Reconstruction network,即从特征图像恢复最后的重建结果。其中的Inference network是一个递归网络，即数据循环地通过该层多次。将这个循环进行展开，等效于使用同一组参数的多个串联的卷积层，如下图所示。

其中的到是D个共享参数的卷积层。将这D个卷积层的每一层的结果都通过相同的Reconstruction Net，在Reconstruction Net中与输入的图像相加，得到D个输出重建结果。这些所有的结果在训练时都同时被监督，即所有的递归都被监督，作者称之为递归监督(Recursive-Supervision)，避免了梯度消失/爆炸问题。将D个递归得到的结果再加权平均：，得到一个总输出。每个加权在训练的过程中也不断地更新。最终的目标函数就需要优化每一个递归层输出的误差和总输出的误差：

表示的是权值衰减(weight decay)。的初始值设置得比较高以使得训练过程稳定，因为训练开始的阶段递归更容易收敛。随着训练的进行，逐渐衰减来提升最终输出的性能。

code: https://cv.snu.ac.kr/research/DRCN/

githug(tensorflow): https://github.com/jiny2001/deeply-recursive-cnn-tfhttps://

6. RED

(Image Restoration Using Convolutional Auto-encoders with Symmetric Skip Connections, NIPS2016)

这篇文章提出了由对称的卷积层-反卷积层构成的网络结构，作为一个编码-解码框架，可以学习由低质图像到原始图像端到端的映射。网络结构如下图所示。

RED网络的结构是对称的，每个卷积层都有对应的反卷积层。卷积层用来获取图像的抽象内容，反卷积层用来放大特征尺寸并且恢复图像细节。卷积层将输入图像尺寸减小后，再通过反卷积层上采样变大，使得输入输出的尺寸一样。每一组镜像对应的卷积层和反卷积层有着跳线连接结构，将两部分具有同样尺寸的特征(要输入卷积层的特征和对应的反卷积层输出的特征)做相加操作(ResNet那样的操作)后再输入到下一个反卷积层。这样的结构能够让反向传播信号能够直接传递到底层，解决了梯度消失问题，同时能将卷积层的细节传递给反卷积层，能够恢复出更干净的图片。可以看到，网络中有一条线是将输入的图像连接到后面与最后的一层反卷积层的输出相加，也就是VDSR中用到的方式，因此RED中间的卷积层和反卷积层学习的特征是目标图像和低质图像之间的残差。RED的网络深度为30层，损失函数用的均方误差。

7. DRRN

(Image Super-Resolution via Deep Recursive Residual Network, CVPR2017)

DRRN的作者应该是受到了ResNet、VDSR和DRCN的启发，采用了更深的网络结构来获取性能的提升。作者也在文中用图片示例比较了DRRN与上述三个网络的区别，比较示例图如下所示。

DRRN中的每个残差单元都共同拥有一个相同的输入，即递归块中的第一个卷积层的输出。每个残差单元都包含2个卷积层。在一个递归块内，每个残差单元内对应位置相同的卷积层参数都共享(图中DRRN的浅绿色块或浅红色块)。作者列出了ResNet、VDSR、DRCN和DRRN四者的主要策略。ResNet是链模式的局部残差学习。VDSR是全局残差学习。DRCN是全局残差学习+单权重的递归学习+多目标优化。DRRN是多路径模式的局部残差学习+全局残差学习+多权重的递归学习。

文章中比较了不同的递归块和残差单元数量的实验结果，最终选用的是1个递归块和25个残差单元，深度为52层的网络结构。总之，DRRN就是通过对之前已有的ResNet等结构进行调整，采取更深的网络结构得到结果的提升。

github(caffe): https://github.com/tyshiwo/DRRN_CVPR17

8. LapSRN

(Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution, CVPR2017)

论文中作者先总结了之前的方法存在有三点问题。一是有的方法在输入图像进网络前，需要使用预先定义好的上采样操作(例如bicubic)来获得目标的空间尺寸，这样的操作增加了额外的计算开销，同时也会导致可见的重建伪影。而有的方法使用了亚像素卷积层或者反卷积层这样的操作来替换预先定义好的上采样操作，这些方法的网络结构又相对比较简单，性能较差，并不能学好低分辨率图像到高分辨率图像复杂的映射。二是在训练网络时使用型损失函数时，不可避免地会产生模糊的预测，恢复出的高分辨率图片往往会太过于平滑。三是在重建高分辨率图像时，如果只用一次上采样的操作，在获得大倍数(8倍以上)的上采样因子时就会比较困难。而且在不同的应用时，需要训练不同上采样倍数的模型。针对这三点问题，作者提出了LapSRN，网络结构如下图所示。

LapSRN的结构可以看成有多级，每一级完成一次2倍的上采样操作，要实现8倍的上采样就需要有三级。在每一级中，先通过一些级联的卷积层提取特征，接着通过一个反卷积层将提取出的特征的尺寸上采样2倍。反卷积层后连有两个卷积层，一个卷积层的作用是继续提取特征，另外一个卷积层的作用是预测出这一级的残差。输入图像在每一级也经过一个反卷积层使尺寸上采样2倍，再与对应级的残差相加，就能重构出这一级的上采样结果。LapSRN设计损失函数为：

$L\left( {\widehat y,y;\theta } \right) = \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{s = 1}^L {\rho \left( {\widehat y_s^{\left( i \right)} - y_s^{\left( i \right)}} \right)} } = \frac{1}{N}\sum\limits_{i = 1}^N {\sum\limits_{s = 1}^L {\rho \left( {\left( {\widehat y_s^{\left( i \right)} - x_s^{\left( i \right)}} \right) - r_s^{\left( i \right)}} \right)} }$

其中，叫作Charbonnier惩罚函数( 范数的变形)，大小设置为0.001。x表示低分辨率图像，y表示高分辨率图像，r表示残差，s表示对应的级。N表示训练时batch size的大小，L表示网络一共有多少级。通过将高分辨率图下采样，在每一级都存在有对应的ground truth进行监督，因此每一级都有一个损失，训练的时候就是要把每一级的损失的和降低。

LapSRN通过逐步上采样，一级一级预测残差的方式，在做高倍上采样时，也能得到中间低倍上采样结果的输出。由于尺寸是逐步放大，不是所有的操作都在大尺寸特征上进行，因此速度比较快。LapSRN设计了损失函数来训练网络，对每一级的结果都进行监督，因此取得了不错的结果。

github(matconvnet): https://github.com/phoenix104104/LapSRN

github(pytorch): https://github.com/twtygqyy/pytorch-LapSRNhttps:/

github(tensorflow): https://github.com/zjuela/LapSRN-tensorflowhttps:/

9. SRDenseNet

(Image Super-Resolution Using Dense Skip Connections, ICCV2017)

DenseNet是CVPR2017的best papaer获奖论文。DenseNet在稠密块(dense block)中将每一层的特征都输入给之后的所有层，使所有层的特征都串联(concatenate)起来，而不是像ResNet那样直接相加。这样的结构给整个网络带来了减轻梯度消失问题、加强特征传播、支持特征复用、减少参数数量的优点。一个稠密块的结构如下图所示。

SRDenseNet将稠密块结构应用到了超分辨率问题上，取得了不错的效果。网络结构如下图所示。

SRDenseNet可以分成四个部分。首先是用一个卷积层学习低层的特征，接着用多个稠密块学习高层的特征，然后通过几个反卷积层学到上采样滤波器参数，最后通过一个卷积层生成高分辨率输出。

文章中针对用于最后重建的输入内容不同，设计了三种结构并做了比较。一是反卷积层只输入最顶层稠密块的输出。二是添加了一个跳跃连接，将最底层卷积层的输出特征和最顶层稠密块的输出特征串联起来，再输入反卷积层。三是添加了稠密跳跃连接，就是把稠密块看成一个整体，第一个卷积层的输出以及每个稠密块的输出，都输入给在之后的所有稠密块，像是把在反卷积层之前的整个网络也设计成像稠密块那样的结构。由于这样做，所有的特征都串联起来，这样直接输入反卷积层会产生巨大的计算开销，因此添加了一个核大小为1×1的卷积层来减小特征数量，这个卷积层被称为瓶颈层。最后的结果是越复杂的越好，3>2>1。文章中分析的是，受益于低层特征和高层特征的结合，超分辨率重建的性能得到了提升。像第三种结构把所有深度层的特征都串联起来，得到了最佳的结果，说明不同深度层的特征之间包含的信息是互补的。

10. SRGAN(SRResNet)

(Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network, CVPR2017)

在这篇文章中，将生成对抗网络(Generative Adversarial Network, GAN)用在了解决超分辨率问题上。文章提到，训练网络时用均方差作为损失函数，虽然能够获得很高的峰值信噪比，但是恢复出来的图像通常会丢失高频细节，使人不能有好的视觉感受。SRGAN利用感知损失(perceptual loss)和对抗损失(adversarial loss)来提升恢复出的图片的真实感。感知损失是利用卷积神经网络提取出的特征，通过比较生成图片经过卷积神经网络后的特征和目标图片经过卷积神经网络后的特征的差别，使生成图片和目标图片在语义和风格上更相似。一个GAN所要完成的工作，GAN原文举了个例子：生成网络(G)是印假钞的人，判别网络(D)是检测假钞的人。G的工作是让自己印出来的假钞尽量能骗过D，D则要尽可能的分辨自己拿到的钞票是银行中的真票票还是G印出来的假票票。开始的时候呢，G技术不过关，D能指出这个假钞哪里很假。G每次失败之后都认真总结经验，努力提升自己，每次都进步。直到最后，D无法判断钞票的真假……SRGAN的工作就是： G网通过低分辨率的图像生成高分辨率图像，由D网判断拿到的图像是由G网生成的，还是数据库中的原图像。当G网能成功骗过D网的时候，那我们就可以通过这个GAN完成超分辨率了。

文章中，用均方误差优化SRResNet(SRGAN的生成网络部分)，能够得到具有很高的峰值信噪比的结果。在训练好的VGG模型的高层特征上计算感知损失来优化SRGAN，并结合SRGAN的判别网络，能够得到峰值信噪比虽然不是最高，但是具有逼真视觉效果的结果。SRGAN网络结构如下图所示。

在生成网络部分(SRResNet)部分包含多个残差块，每个残差块中包含两个3×3的卷积层，卷积层后接批规范化层(batch normalization, BN)和PReLU作为激活函数，两个2×亚像素卷积层(sub-pixel convolution layers)被用来增大特征尺寸。在判别网络部分包含8个卷积层，随着网络层数加深，特征个数不断增加，特征尺寸不断减小，选取激活函数为LeakyReLU，最终通过两个全连接层和最终的sigmoid激活函数得到预测为自然图像的概率。SRGAN的损失函数为：

其中内容损失可以是基于均方误差的损失的损失函数：

也可以是基于训练好的以ReLU为激活函数的VGG模型的损失函数:

i和j表示VGG19网络中第i个最大池化层(maxpooling)后的第j个卷积层得到的特征。对抗损失为：

文章中的实验结果表明，用基于均方误差的损失函数训练的SRResNet，得到了结果具有很高的峰值信噪比，但是会丢失一些高频部分细节，图像比较平滑。而SRGAN得到的结果则有更好的视觉效果。其中，又对内容损失分别设置成基于均方误差、基于VGG模型低层特征和基于VGG模型高层特征三种情况作了比较，在基于均方误差的时候表现最差，基于VGG模型高层特征比基于VGG模型低层特征的内容损失能生成更好的纹理细节。

github(tensorflow): https://github.com/zsdonghao/SRGANhttps://

github(tensorflow): https://github.com/buriburisuri/SRGANhttps://

github(torch): https://github.com/junhocho/SRGANhttps:/AN

github(caffe): https://github.com/ShenghaiRong/caffe_srganhttps:///caffe_srgan

github(tensorflow): https://github.com/brade31919/SRGAN-tensorflowhttps://RGAN-tensorflow

github(keras): https://github.com/titu1994/Super-Resolution-using-Generative-Adversarial-Networkshttps://er-Resolution-using-Generative-Adversarial-Networks

github(pytorch): https://github.com/ai-tor/PyTorch-SRGAN

11. EDSR

(Enhanced Deep Residual Networks for Single Image Super-Resolution, CVPRW2017)

EDSR是NTIRE2017超分辨率挑战赛上获得冠军的方案。如论文中所说，EDSR最有意义的模型性能提升是去除掉了SRResNet多余的模块，从而可以扩大模型的尺寸来提升结果质量。EDSR的网络结构如下图所示。

可以看到，EDSR在结构上与SRResNet相比，就是把批规范化处理(batch normalization, BN)操作给去掉了。文章中说，原始的ResNet最一开始是被提出来解决高层的计算机视觉问题，比如分类和检测，直接把ResNet的结构应用到像超分辨率这样的低层计算机视觉问题，显然不是最优的。由于批规范化层消耗了与它前面的卷积层相同大小的内存，在去掉这一步操作后，相同的计算资源下，EDSR就可以堆叠更多的网络层或者使每层提取更多的特征，从而得到更好的性能表现。EDSR用L1范数样式的损失函数来优化网络模型。在训练时先训练低倍数的上采样模型，接着用训练低倍数上采样模型得到的参数来初始化高倍数的上采样模型，这样能减少高倍数上采样模型的训练时间，同时训练结果也更好。

这篇文章还提出了一个能同时不同上采样倍数的网络结构MDSR，如下图。

MDSR的中间部分还是和EDSR一样，只是在网络前面添加了不同的预训练好的模型来减少不同倍数的输入图片的差异。在网络最后，不同倍数上采样的结构平行排列来获得不同倍数的输出结果。

从文章给出的结果可以看到，EDSR能够得到很好的结果。增大模型参数数量以后，结果又有了进一步的提升。因此如果能够解决训练困难的问题，网络越深，参数越多，对提升结果确实是有帮助吧。

github(torch): https://github.com/LimBee/NTIRE2017https://2017

github(tensorflow): https://github.com/jmiller656/EDSR-Tensorflowhttps://

github(pytorch): https://github.com/thstkdgus35/EDSR-PyTorchhttps://

通过以上11篇有关深度学习超分辨率方法的论文，可以看到通过网络结构、损失函数以及训练方式的演变，深度学习超分辨率方法在结果、速度以及应用性上都有了不断的提高。这里再放上一篇深度学习超分辨率方法综述的链接(Super-Resolution via Deep Learning)以及github上一个超分辨率方法的总结(https://github.com/YapengTian/Single-Image-Super-Resolutionhttps://ingle-Image-Super-Resolution)。

非常感谢许多知乎和博客上的文章，由于比较多，这里列出参考得比较多的几个资源：

https://zhuanlan.zhihu.com/p/25532538?utm_source=tuicool&utm_medium=referral

http://blog.csdn.net/u011692048/article/category/7121139

http://blog.csdn.net/wangkun1340378/article/category/7004439

第二部分

https://blog.csdn.net/aBlueMouse/article/details/84288591

这一部分总结的内容主要是ICCV2017、CVPR2018以及ECCV2018三大会议中的一部分有关针对自然图像（还有不少针对人脸图像的）的深度学习端到端超分辨率方法的论文。从中大致也能看到两年来用于超分辨率的卷积神经网络的发展形势。

1. EnhanceNet

(EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis, ICCV2017)

文章中指出，低分辨率图像和高分辨率图像是一对多的，不同的高分辨率图像都能够得到相同的低分辨率图像。文章强调了用峰值信噪比(Peak Signal to Noise Ratio, PSNR)来作为超分辨率方法的评判准则，会使得超分辨率的图像存在外观模糊、过于平滑以及不自然等问题。使用均方误差（mean squared error, MSE）作为损失函数，得到的结果只是众多可能结果的平均值。为了说明这一点，文章还设计了一个简单的玩具实验（toy example）。

本文关注的重点也是在MSE损失函数带来的问题上，因此更多的去介绍损失函数以及比较使用不同的损失函数得到的结果。生成网络以及判别网络的结构则用以下两个表格表示。生成网络部分采用最近邻上采样跟上一个卷积层的结构对图像的尺寸进行放大。由于在超分辨率的任务中，不需要学习低分辨率图像的恒等映射。而残差块的结构组成了生成网络的主要部分，因此生成网络也就是只将残差信息添加到低分辨率图像上。通过运用学习残差的思想，文章表示可以有助于加快网络收敛，稳定训练以及减少颜色偏移。

文章一共使用了四种损失函数。一是MSE作为baseline。二是感知损失，为了同时获得低层和高层的特征，计算的是输出图像和真值图像输入到VGG-19中第二个和第五个池化层的特征之间的MSE。三是纹理匹配损失，由于Gram矩阵可以捕获风格信息，参考（https://blog.csdn.net/tunhuzhuang1836/article/details/78474129），由VGG中的特征得到Gram矩阵，同时训练时候计算的是块之间的差值，文章指出网络能够学习出与高分辨率图像包含相同局部纹理的输出图像。四是对抗损失，也就是加上判别网络。文章通过四种损失之间的不同组合，最终结果是只使用MSE的PSNR值最高，而同时使用感知损失、纹理匹配损失和对抗损失三种损失函数得到的结果更加自然真实。

2.MemNet

(MemNet: A Persistent Memory Network for Image Restoration, ICCV2017)

这篇文章中，作者说到已有的网络虽然深度一直在加深，但是都没有意识到前面层的特征对于后续层的作用会很小。于是，作者提出了一种由递归单元和门控单元组成的记忆模块，由于记忆模块拥有门控机制，可以将需要的信息保留下来，作者建立了一个很深很深的网络。网络结构图如下。

可以看到，网络由多个记忆模块通过稠密连接的方式组成。记忆模块的结构如下所示。

在记忆模块的递归单元中，由多个共享参数的残差模块稠密连接组成。经过多个共享参数的残差模块，可以递归地学习到不同感受野下的特征。所谓的门控单元其实就是一个1×1的卷积层，减小特征的通道数，保留需要的信息。

由于网络中包含多个记忆模块，作者还提出可以对每个记忆模块的输出都计算损失的多监督的训练方式来提高结果。

github(caffe): https://github.com/tyshiwo/MemNet

github(tensorflow): https://github.com/ly-atdawn/MemNet-Tensorflow

github(pytorch): https://github.com/Vandermode/pytorch-MemNet

3. DBPN

(Deep Back-Projection Networks For Super-Resolution, CVPR2018)

这篇文章提出了一种迭代地计算上采样和下采样投影误差的错误反馈机制，对重建过程进行引导以得到更好的结果。文章提出的上采样和下采样映射单元如下图所示。

以上采样单元为例。先将输入的低分辨率尺寸映射到高分辨率特征图，接着再将这个高分辨率的特征图映射回输入尺寸大小的特征图，计算其与输入特征图的残差，再次将这个残差映射到高分辨率尺寸，与之前的高分辨率特征图相加得到最后的输出。这一具体过程让我想到了cycleGAN的思想，即需要同时考虑正向和反向的映射，对生成的高分辨率图像进行下采样也应能够与输入的低分辨率图像相近。在以上结构中，通过计算与输入数据的残差，实现了错误反馈的机制。下采样单元则是将上采样单元的放大尺寸和缩小尺寸的顺序颠倒一下。

DBPN的网络结构如上所示。通过采用稠密连接的方式，将多个上采样单元和下采样单元堆叠起来，最终通过一个卷积层重建出超分辨率结果。此方法在NTIRE2018比赛中8倍的bicubic上采样任务上拿到了第一名，PIRM2018比赛中也拿到了Region 2的第一名。

github(caffe): https://github.com/alterzero/DBPN-caffe

github(pytorch): https://github.com/alterzero/DBPN-Pytorch

4. IDN

(Fast and Accurate Single Image Super-Resolution via Information Distillation Network, CVPR2018)

这篇文章关注的问题是，大多数方法为了获得更好的结果，都趋向于将网络加深或者扩大，实际的应用性很低。于是文章从特征图的通道维度入手，提出了一种叫做信息蒸馏块的结构。网络结构如下图所示，由特征提取块，堆叠的信息蒸馏块和重建块组成。

每个信息蒸馏块由增强单元和压缩单元组成。增强单元结构如下。

增强单元中，可以将上面的三个卷积层和下面的三个卷积层分别看成一个模块。其中上面的模块输出局部短路径信息，下面的模块输出局部长路径信息。每个模块中，第一个卷积层输出的通道数比第二个卷积层输出的通道数大，第三个卷积层输出的通道数比第一个卷积层输出的通道数大。上面的模块输出的局部短路径信息在通道维度上被划分为两部分，一部分与输入数据串联起来，另外一部分输入下面的模块。最后，将输入的数据，保留的局部短路径信息以及下面的模块输出的局部长路径信息相加，即得到增强单元的输出。

增强单元的输出都会输入到压缩单元中。所谓的输入单元，就是一个1×1的卷积层，将特征图的通道维度进行压缩，蒸馏掉冗余的信息。

其实这篇文章方法的网络结构与VDSR或是LapSRN的网络结构很相似，都是学习高分辨率图像和低分辨率图像之间的残差，与bicubic上采样后的低分辨率图像相加得到输出。IDN通过压缩网络中特征图通道维度的方式，在减小网络参数，提高速度的情况下，还保证了重建的结果。

github(caffe): https://github.com/Zheng222/IDN-Caffe

5.RDN

(Residual Dense Network for Image Super-Resolution, CVPR2018)

这篇文章的方法从名字上也能看出来吧。用了dense的方法，堆叠多个残差稠密块，提出了一个残差稠密网络，充分利用网络中各个层级的特征。与ICCV2017的SRDenseNet很像，不过SRDenseNet只有dense连接，本章方法多了1×1卷积后在相加的步骤，所以这个方法叫做residual dense。作者为在残差稠密块中的1×1卷积起名叫局部特征融合，残差稠密网络最后的1×1卷积起名叫全局特征融合。残差稠密网络和残差稠密块的结构分别如下所示。

github(torch): https://github.com/yulunzhang/RDN

github(tensorflow): https://github.com/hengchuan/RDN-TensorFlow

6.RCAN

(Image Super-Resolution Using Very Deep Residual Channel Attention Networks, ECCV2018)

这篇文章中提到，越来越深的卷积神经网络是使得超分辨率任务的精度越来越高了，然而之前的网络中的特征包含有多余的低频信息，但是网络对于所有信息是同等对待的，从而限制了网络的表达能力。于是，这篇文章将通道维度的注意力机制引入了超分辨率任务中。网络结构如下。

网络结构由特征提取部分，堆叠的残差组用于提取深层特征，放大尺寸模块和重建部分组成。每个残差组包含多个残差通道注意力块。作者把这种结构起名叫残差中的残差，包含有长跳跃连接和短跳跃连接。作者指出，图像的低频信息可以通过这多个跳跃连接传递到网络深层，从而让网络关注于高频信息。我认为其实这本来就是残差网络的恒等映射的优点，并且可以让网络变得更深的原因吧。残差通道注意力块的结构如下图所示。

残差通道注意力块中用一个全局平均池化操作来获得每个通道的全局空间信息的表达。然后使用sigmoid函数实现门控机制，从而赋予网络通道注意力机制。

文章给出的视觉结果全是图像中高频信息十分丰富的部分，都是很密集的线或者很密集的网格，与其他结果相比确实好很多，说明文章中所说的让网络关注于重建图像的高频信息部分，确实有很好的效果。

github(pytorch): https://github.com/yulunzhang/RCAN

7. MSRN

(Multi-scale Residual Network for Image Super-Resolution, ECCV2018)

这篇文章的出发点也是为了充分利用低分辨率图像的特征，从而提出了一个多尺度残差块的结构。所谓的多尺度残差块，就是将残差块和inception块进行了结合，使用了不同尺寸的卷积核，从而可以在不同的尺寸上获取图像的特征。文章指出这是第一次在残差结构上使用多尺度的模式。在多尺度残差块中，会对提取的局部多尺度特征进行融合。多尺度残差网络则由多个多尺度残差块堆叠而成，在网络的最后部分，将每一个多尺度残差块的输出结合在一起进行全局特征融合，从而重建出超分辨率结果。多尺度残差网络和多尺度残差块的结构示意图分别如下所示。

github(pytorch): https://github.com/MIVRC/MSRN-PyTorch

8. CARN

(Fast, Accurate, and Lightweight Super-Resolution with Cascading Residual Network, ECCV2018)

这篇文章的出发点也是为了减轻网络的体量，增强实用性。作者采用了一种级联机制来实现目的，提出了级联残差网络。网络结构如下。

在级联残差网络中，包含多个级联块。级联块内部也包含多个跳跃的连接，这样就使得级联残差网络在局部和全局都可以混合多级的特征。网络使用亚像素卷积层进行尺寸的放大。级联块的结构如下所示。

为了提高网络的效率，作者提出了上图(b)的残差-E块，使用的是与MobileNet类似的方法，不过是使用分组卷积替换深度卷积。上图(c)则是级联块的结构。为了进一步减少参数，可以像递归网络一样，对级联块的参数进行共享，如上图中的(d)。

9.ZSSR

(“Zero-Shot” Super-Resolution using Deep Internal Learning, CVPR2018)

这一篇文章叫做“零样本”超分辨率，我个人觉得也算是一个比较另辟蹊径的想法吧。所谓的“零样本”超分辨率，作者采用的做法是利用图像的内部信息，用图像本身来训练网络。由于只有一个实例，因此先对这张图像进行不同倍率的下采样，得到这张图像本身以及多个不同的下采样版本，这些图片就被用来当作训练网络用的标签。再将这些图片进行目标倍率的下采样，即可得到训练的输入数据。对数据集再进行一些旋转、翻转等增强操作，然后用增强后的数据集训练一个相对轻量的卷积神经网络。由于训练数据都是由图像本身得到的，数据分布比较集中，因此网络能够很快得到收敛。再将图像本身输入到网络中，即可完成对原始图像的上采样操作。论文中的过程示意图如下。

作为一个无监督的方法，ZSSR重建的图像的PSNR与一众用大量数据训练的监督方法相比还是会低一些，不过作者指出ZSSR更加适应真实场景中的图像超分辨率，除了对图像进行超分辨率外，还能够解决传感器噪声、图像压缩等问题，这都是只用bicubic下采样生成的数据集训练的方法完成不了的。我认为这篇文章真的是很有意思的一个想法，不过ZSSR应该不太适用于较大倍率的超分辨率任务。

github(tensorflow): https://github.com/assafshocher/ZSSR

10. SFTGAN

(Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform, CVPR2018)

这篇文章的主要目标是在超分辨率结果中恢复出自然真实的纹理。为了实现这一目标，文章将语义分割概率图作为语义类别先验条件，即确定图像中属于天空、水或者草地等的区域，从而有助于生成更加丰富真实的纹理。作者提出了一种空间特征调制层，将语义类别先验结合到网络中。网络结构示意图如下所示。

空间特征调制层的过程是由先验条件中得到仿射变换和平移的参数，再对网络的中间特征进行仿射变换操作。训练网络时使用的感知损失和对抗损失。

github(pytorch/torch): https://github.com/xinntao/SFTGAN

11. SRFeat

(SRFeat: Single Image Super-Resolution with Feature Discrimination, ECCV2018)

这篇文章中说到，虽然已有的基于GAN的超分辨率方法能够被用来生成真实的纹理信息，但是它们都倾向于生成与输入图像无关的不太有意义的高频噪声。于是，作者增加了一个作用于特征域的判别网络，使得生成网络能够生成与图像结构相关的高频特征。生成网络的结构如下。

生成网络中间部分由多个残差块以及远程跳跃连接组成，这样的结构可以更有效地传递远程层之间的信息。之后由亚像素卷积层完成尺寸放大的操作。判别网络结构如下。

训练网络时，作者先用均方误差预训练生成网络，然而，此时得到的结果并不能得到视觉上让人满意的结果。接下来，再用感知损失和两个对抗损失来训练网络。一个对抗损失对应的是图像判别网络，也就是和原有方法一样，对图像的像素值进行评判。另外一个对抗损失则对应的是特征判别网络，是对图像的特征图进行评判，即将感知损失中计算的对象交由判别网路进行判断。通过添加这个特征判别网络，生成网络被训练得能够合成更多有意义的高频细节。作者提到，他们尝试了多种特征判别网络的结构，但是得到的结果都很接近。

从文章给出的视觉结果来看，添加了特征判别网络后，确实能够生成更加真实丰富的细节。

12.ESRGAN

(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks, ECCV2018 PIRM Workshop)

这一篇文章为了去除SRGAN的结果中的人工伪影，增强结果的视觉质量，从生成网络，判别网络和感知损失三个方面进行了提升。首先，生辰网络的结构图下。

图中橙色表示的基础块，可以选择残差块（与SRGAN一样），稠密块，或者是本文提出的残差中的残差稠密块。残差中的残差稠密块结构如下。

在EDSR中就指出了去掉BN层能够给超分辨率任务的结果带来提升。作者将BN层去掉，同时将原始残差块中的残差映射分支结构改为稠密连接的结构。一个残差中的残差稠密块中包含多个修改后残差块以及一个长跳跃连接的恒等映射，所以叫做残差中的残差。作者指出，由于这个结构使得网络更深并且更复杂，给结果的提升带来了好处。为了训练这么深的网络，同时使结果更好，还使用了残差缩放、更小的初始化等操作。

判别网络的改进是将原先标准的判别网络改为了相对的判别网络，即原先的判别网络是判断输入图像是否是真实的，而现在判别网络是判断输入图像是否比假的图像更加真实，比较的对象是对一个mini-batch中所有假数据取平均值。使用相对的判别网络以后，反向传播给生成网络的梯度能来自生成数据和真实数据，而不像以前只能来自生成数据，因此生成网络能够生成更加锐利的边缘和更加丰富的纹理细节。

对感知损失的改进是使用的是激活函数之前的数据，而不是使用激活函数输出的数据。由于激活函数是稀疏的，因此激活函数带了了非常弱的监督。同时，作者还发现使用激活函数输出的数据，会带来重建图像与GT亮度不一致的问题。在参加PIRM2018比赛中，作者尝试了不同的感知损失，还专门fine-tuned了VGG网络用于材料识别任务，因为这个任务更加注重于纹理而不是物体。

文章中还提到了网络插值的操作。即先用均方误差训练好一个生成网络，再基于GAN训练一个生成网络，将两个训练好的网络中的所有参数赋予权重进行插值，即可得到一个插值的网络。通过调节权重，即可以平衡模型的视觉质量与逼真度。

此方法在PIRM2018比赛中拿到了Region 3的第一名。

github(pytorch): https://github.com/xinntao/ESRGAN

同时，再补充一点，CVPR2018的《The Perception-Distortion Tradeoff》，提出了超分辨率方法的感知指标理论，也在PIRM2018比赛中所使用。

你可能感兴趣的:(超分辨)

Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
stable diffusion和GAN网络的区别，优点缺点是什么爱好很多的算法工程师 SD大模型AIGC 笔记
稳定扩散（stablediffusion）和生成对抗网络（GAN）是两种不同的深度学习方法。稳定扩散是一种无监督学习方法，用于图像超分辨率重建。它基于扩散过程模型，通过在不同的时间步骤中对图像进行重建来增加分辨率。该方法能够有效地增加图像的细节，并产生更高质量的图像。其优点包括：无监督学习：稳定扩散不需要使用任何带标签的训练数据，因此可以用于无监督任务。高分辨率重建：稳定扩散能够通过迭代过程逐渐增
（condition instance batchnorm）A LEARNED REPRESENTATION FOR ARTISTIC STYLE 水球喵
分享一个不错的对batchnorm的解释https://blog.csdn.net/aichipmunk/article/details/54234646.作者提到:BatchNorm会忽略图像像素（或者特征）之间的绝对差异（因为均值归零，方差归一）,instancenorm也是一样的，他们只考虑相对差异，所以在不需要绝对差异的任务中（比如分类、风格），有锦上添花的效果。而对于图像超分辨率这种需要
Stable Diffusion系列（六）：原理剖析——从文字到图片的神奇魔法（潜空间篇）羊城迷鹿多模态模型 stable diffusion latent 潜空间论文
文章目录LDM概述原理模型架构自编码器模型扩散模型条件引导模型图像生成过程实验结果指标定义IS（越大越好）FID（越小越好）训练成本与采样质量分析不带条件的图片生成基于文本的图片生成基于语义框的图片生成基于语义图的图片生成超分辨率图像生成图像重绘其他文生图模型DALL-EImagen在上一章，我们了解了扩散模型的基本原理，但它离实现StableDiffusion的文生图或图生图功能显然还有一段距离
ESRGAN：基于GAN的增强超分辨率方法（附代码解析） PaperWeekly
作者丨左育莘学校丨西安电子科技大学研究方向丨计算机视觉之前看的文章里有提到GAN在图像修复时更容易得到符合视觉上效果更好的图像，所以也是看了一些结合GAN的图像修复工作。ESRGAN:EnhancedSuper-ResolutionGenerativeAdversarialNetworks发表于ECCV2018的Workshops，作者在SRGAN的基础上进行了改进，包括改进网络的结构、判决器的判
[超分辨率重建]ESRGAN算法训练自己的数据集过程 Cr_南猫超分辨率重建超分辨率重建人工智能深度学习
一、下载数据集及项目包1.数据集1.1文件夹框架的介绍，如下图所示：主要有train和val，分别有高清（HR）和低清（LR）的图像。1.2原图先通过分割尺寸的脚本先将数据集图片处理成两个相同的图像组（HR和LR）。如训练x4的ESRGAN模型，那么我们需要将HR的图像尺寸与LR的图像尺寸比例是4:1。在我的训练中，我将HR的图像尺寸分割成了480x480，LR的图像分割成了120x120。如下图
第十八篇【传奇开心果短博文系列】Python的OpenCV库技术点案例示例：图像修复和恢复传奇开心果编程 Python库OpenCV 技术点案例示例短博文 python opencv 计算机视觉人工智能
传奇开心果短博文系列系列短博文目录Python的OpenCV库技术点案例示例系列短博文目录前言一、常用的图像修复与恢复技术二、插值方法示例代码三、基于纹理合成的方法示例代码四、基于边缘保持的方法示例代码五、基于图像修复模型的方法示例代码六、基于深度学习的方法示例代码七、基于结构化边缘的方法示例代码八、基于多帧图像的方法示例代码九、基于超分辨率的方法示例代码十、cv2.inpaint()函数修复图像
【深度学习】实验7布置，图像超分辨 X.AI666 深度学习深度学习人工智能
清华大学驭风计划因为篇幅原因实验答案分开上传，实验答案链接http://t.csdnimg.cn/P1yJF如果需要更详细的实验报告或者代码可以私聊博主有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~深度学习训练营案例7：图像超分辨相关知识点：生成对抗网络、图像处理（PIL）和可视化（matplotlib）1任务和数据简介本次案例将使用生成对抗网络来实现4倍图像超分辨任务，输入一张低
【深度学习】实验7实验结果，图像超分辨 X.AI666 深度学习深度学习人工智能
代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主，接实验技术指导1对1实验要求布置请看http://t.csdnimg.cn/jCsv6Model实现说明代码实现了一个基于生成对抗网络（SRGAN）的图像超分辨率模型。总体来说，SRGAN由两个主要组件组成：生成器（Generator）和判别器（Discriminator），它们相互对抗并共
YOLOv8改进 | 检测头篇 | 独创RFAHead检测头超分辨率重构检测头（适用Pose、分割、目标检测） Snu77 YOLOv8有效涨点专栏 YOLO 目标检测人工智能深度学习计算机视觉 python Pytorch
一、本文介绍本文给大家带来的改进机制是RFAHead，该检测头为我独家全网首发，本文主要利用将空间注意力机制与卷积操作相结合的卷积RFAConv来优化检测头，其核心在于优化卷积核的工作方式，特别是在处理感受野内的空间特征时。RFAConv主要的优点就是增加模型的特征提取能力，这对于对于那些数据集中有困难识别的样本来说是非常有效的解决方法，同时本文的检测头结构为我本人独家提出，全网仅此一份，结构非常
ESRGAN：基于GAN的增强超分辨率方法（附代码解析）无止境x Super Resolution（超分辨）ESRGAN
之前看的文章里有提到GAN在图像修复时更容易得到符合视觉上效果更好的图像，所以也是看了一些结合GAN的图像修复工作。ESRGAN:EnhancedSuper-ResolutionGenerativeAdversarialNetworks发表于ECCV2018的Workshops，作者在SRGAN的基础上进行了改进，包括改进网络的结构、判决器的判决形式，以及更换了一个用于计算感知域损失的预训练网络。
一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率 qq_43314576 人工智能机器学习深度学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录摘要Abstract文献阅读：一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率二、使用步骤1、研究背景2、方法提出3、相关方法3.1、FSR网络结构3.2、多阶段FSR网络结构4、实验工作5、方法比较LSTM代码学习2.1、什么是LSTM2.2、LSTM的处理过程2.3、LSTM代码分析总结摘要本周主要阅读了2020C
（2021|NIPS，VQ-VAE，精度瓶颈松弛，三明治层归一化，CapLoss）CogView：通过转换器掌握文本到图像的生成 EDPJ 论文笔记 transformer 深度学习人工智能
CogView:MasteringText-to-ImageGenerationviaTransformers公众号：EDPJ（添加VX：CV_EDPJ或直接进Q交流群：922230617获取资料）目录0.摘要1.简介2.方法2.1理论2.2标记化2.3自回归Transformer2.4训练的稳定性3.微调3.1超分辨率3.2图像标题和自我重新排名3.3风格学习3.4工业时尚设计4.实验结果4.1
论文阅读《SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolutio》 CV科研随想录 CV顶会(刊)论文阅读论文阅读
论文地址：https://arxiv.org/pdf/2312.05799v1.pdf源码地址：https://github.com/yanzq95/SGNet概述深度图的图像引导超分辨率在各个领域有着广泛的应用。但是，复杂的成像环境会导致深度图的结构边缘变得模糊。如图2所示，从梯度图可以看出，它能够很好地表现出图像的结构信息。从频谱图可以看出，高分辨率的深度图和RGB图像都包含了丰富的高频和
文本生成高清、连贯视频，谷歌推出时空扩散模型 RPA中国音视频人工智能
谷歌研究人员推出了创新性文本生成视频模型——Lumiere。与传统模型不同的是，Lumiere采用了一种时空扩散（Space-time）U-Net架构，可以在单次推理中生成整个视频的所有时间段，能明显增强生成视频的动作连贯性，并大幅度提升时间的一致性。此外，Lumiere为了解决空间超分辨率级联模块，在整个视频的内存需求过大的难题，使用了Multidiffusion方法，同时可以对生成的视频质量、
HiNet阅读笔记小杨小杨1 #全监督计算机视觉人工智能深度学习
HINet:HalfInstanceNormalizationNetworkforImageRestoration摘要提出了一种新的block:半实例归一化块(HINblock)图像恢复任务sota一些效果展示引言批处理归一化不能提高超分辨率网络的性能批归一化消除了网络的范围灵活性图像恢复任务通常使用小的图像patch和小的mini-batchsize来训练网络，这导致BN的统计不稳定。实例标准化
ICCV 2023 超分辨率（super-resolution）方向上接收论文总结 yyywxk
ICCV2023官网链接：https://iccv2023.thecvf.com/会议时间：2023年10月2日至6日，法国巴黎（Paris）。ICCV2023统计数据：收录2160篇。现将超分辨率方向上接收的论文汇总如下，遗漏之处还请大家斧正。图像超分SRFormer:PermutedSelf-AttentionforSingleImageSuper-ResolutionPaper:http:/
torch.utils.data.Dataset syugyou pytorch python
文章目录torch.utils.data.Dataset结构示例超分辨率数据集bsd_300__getitem__()transformimagenet22k数据集__getitem__()RelatedLinkstorch.utils.data.Dataset表示一个数据集的抽象类，Map-style的数据集都应该是它的子类，并且重写__getitem__()，支持给定key值获取数据，重写__
紫光展锐M6780丨超分辨率技术——画质重构还原经典紫光展锐官方重构人工智能
上一期，我们揭秘了让画质更加炫彩的AI-PQ技术。面对分辨率较低的老电影，光有高饱和度的色彩是不够的，如何能够提高视频影像的分辨率，使画质更加清晰，实现老片新看？本期带大家揭晓紫光展锐首颗AI+8K超高清智能显示芯片平台M6780的第二项隐藏技能——AI-SR超分辨率技术。在图像、视频的显示过程中，视频源的输入尺寸取决于视频资源的实际尺寸，如果视频资源较为老旧，其分辨率普遍低于播放设备的显示分辨率
超分之SRGAN 深度学习炼丹师-CXD 超分SR 计算机视觉人工智能深度学习超分辨率重建论文笔记
Photo-RealisticSingleImageSuper-ResolutionUsingaGenerativeAdversarialNetwork使用生成对抗网络的逼真单图像超分辨率一作：ChristianLedig是Twitter2017年的一篇论文。超分之SRGAN代码实现文章目录0.摘要1.引言1.1相关工作1.1.1介绍了SR技术的发展历程1.1.2介绍了SR技术中卷积神经网络的设计
超分之ESRGAN 深度学习炼丹师-CXD 超分SR 深度学习计算机视觉超分辨率重建 pytorch
Esrgan：增强型超分辨率生成对抗网络。Esrgan:Enhancedsuper-resolutiongenerativeadversarialnetworks.In:ECCVW.(2018)XintaoWang,KeYu,ShixiangWu,JinjinGu,YihaoLiu,ChaoDong,YuQiao,andChenChangeLoy.文章目录摘要一、引言二、相关工作三、Methods
卷积神经网络（CNN） Array902 cnn 人工智能神经网络
卷积神经网络主要就是应用于计算机视觉（CV）当中！可以做啥？检测任务：检测追踪分类与检索：分类看图像是啥，检索比如说淘宝里面识别一张图片得到类似商品超分辨率重构医学任务等无人驾驶人脸识别传统神经网络与卷积神经网络的区别卷积神经网络拿到一张图像直接进行处理，不需要将图像中的点拉成一维向量；整体架构卷积层：提取特征池化层：压缩特征卷积h*w*c上面的一块小区域的样本点矩阵：小区域处的权重矩阵：图像颜色
ECCV 2022 超分辨率（super-resolution）方向上接收论文总结（持续更新） yyywxk
ECCV2022除了著名的CVPR、ICCV，ECCV（欧洲计算机视觉国际会议）也是计算机视觉三大国际顶级会议之一，每两年召开一次。本届ECCV2022将在10月23日-27日的以色列特拉维夫（Tel-Aviv）举行，采取线下和线上混合形式召开[1]。而本届会议论文录用率不足20%。现将超分辨率方向上接收的论文汇总如下，遗漏之处还请大家斧正。图像超分CADyQ:Content-AwareDynam
基于深度学习的老黑白视频修复 OverlordDuke 深度学习 GAN 深度学习音视频人工智能视频修复
基于深度学习的老黑白视频修复PaddleGAN实现老北京黑白视频修复项目背景与意义安装PaddleGAN1.1准备工作1.2下载PaddleGAN代码1.3安装依赖导入依赖包2.1导入相关库2.2定义display函数展示旧影像3.1读取视频帧3.2获得帧率并显示视频修复4.1使用DAIN模型补帧4.2使用DeOldify模型进行上色4.3使用PPMSVSR模型实现视频的超分辨率展示结果Paddl
Resemble Enhance音频失真损坏修复AI工具：一个开源语音超分辨率AI模型喜好儿aigc 人工智能 aigc 科技机器人 ai
ResembleEnhance是一款强大的音频处理工具，可以将嘈杂的录音转化为清晰而有力的声音，为用户提供更优质的听觉体验。这个工具不仅可以有效去除录音中的各种噪声和杂音，还能够恢复音频失真并扩展音频带宽，使原本的声音听起来更加清晰和自然。详细介绍：ResembleEnhance:OpenSourceSpeechSuperResolutionModelGitHub：https://github.c
ESRGAN - Enhanced Super-Resolution Generative Adversarial Networks论文翻译——中文版 SnailTyan
文章作者：Tyan博客：noahsnail.com|CSDN|声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文，谢谢！翻译论文汇总：https://github.com/SnailTyan/deep-learning-papers-translationESRGAN:EnhancedSuper-ResolutionGenerativeAdversarialNetworks摘要超分辨率生成对抗
【扩散模型】11、Stable Diffusion | 使用 Diffusers 库来看看 Stable Diffusion 的结构呆呆的猫 stable diffusion
文章目录一、什么是StableDiffusion二、Diffusers库三、微调、引导、条件生成3.1微调3.2引导3.3条件生成四、StableDiffusion4.1以文本为条件生成4.2无分类器的引导4.3其它类型的条件生成：超分辨率、图像修补、深度图到图像的转换4.4使用DreamBooth微调五、使用Diffusers库来窥探StableDiffusion内部5.1StableDiffu
基于DL的人脸超分辨率(FSR)任务综述多少学一点吧 FSR 深度学习计算机视觉神经网络
一、任务描述从低分辨率的人脸图像中生成高分辨率的人脸图像。二、数据来源利用已有的高分辨率（HR）人脸图像，采用一些方法降低图像的分辨率，得到对应的低分辨率（LR）人脸图像。LR图像用于网络的训练，HR图像用于监督，网络生成的图片记为SR（superresolution），损失函数可以基于评估HR图像和SR图像之间的差异构建。三、常见的评价指标和损失函数1、评价指标：（1）PSNR（PeakSign
目标检测YOLO实战应用案例100讲-基于图像增强的鸟类目标检测（续）林聪木目标检测 YOLO 深度学习
目录SRGAN网络模型改进研究3.1SRGAN超分辨率模型3.1.1SRGAN网络结构3.1.2SRGAN的损失函数
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement