浅析EDSR——深度学习超分辨率算法

写在前面：
最近在给部门做分享的时候，分享了计算机视觉方向的一些应用算法，想起来很久没有写过什么技术分享类的blog，毕业也快一年了，在京东做机器学习工程师的日子，也应该记录一下自己的技术成长路线，便于与大家互相交流与进步。

1.What's SR(Super Resolution超分辨率)
通俗地来讲便是 "To make it clearer"
下面两张图分别是之前比较热门的AI修复清朝影像以及西方19世纪影片的样例
形意说法是“SR aims to enhance the Pixel Density and high-frequency information”

WechatIMG5.jpeg

WechatIMG6.jpeg

SR算法强调两个纬度，一是像素密度，二是高频信息。

像素密度很好理解，计算机图像的单位区域内增加更多像素点，便是提升密度。
（The number of pixels per inch of the image, called Pixel Density）

高频信息，建立在增加密度的基础上，上面一句提到要增加像素点，那这些像素点的数值应该怎么定义取值函数呢？肯定不能乱取，这些数值必然是能反应图片正确信息或者说趋近于我们的优化目标G的信息。

SR要做的就是，增加像素点并且给出像素点取值函数的定义。

2.上采样（upsampling）
在正式进入SR算法之前，我先来列举一下提升像素密度的一些传统方法
Bilinear：双线性插值
Bicubic：双三次插值
Nearst-neighbor：最近邻插值
以上都是一些rule-based方法，当然也有类似于转置卷积的一些方法，在这里不做过多介绍。
我想表达的是SR Focus On Pixel Density ,Also The Effective Information
最优的取值方式必然是非人工干预的，是有自我学习机制的。由于问题的场景特性十分适合DeepLearning，因此深度学习在SR领域自然而然地大肆横行。

3.初识EDSR
先po一张EDSR的结构图

EDSR结构

对CV有了解的朋友可能发现了熟悉的结构体——ResBlock

没错 EDSR借鉴了ResNet网络基于残差进行学习的机制，input经过一层卷积后兵分两路，一条路经过n层的ResBlock再卷积一次，一条路则直接通向交汇处，进行加权求和，再经过上采样的处理与卷积输出结果。但是EDSR与ResNet中的ResBlock有些不同，EDSR中没有BN层，没有标准化的过程。

EDSR与Resnet对比

这是由于超分辨率属于low-level的应用，而图像识别或是目标检测属于high-level的应用。很通俗的理解是，超分的粒度是每一个像素点，而识别任务仅产出一个output，绝对值对于超分来说很重要，最后需要添加的是像素点绝对的数值，BN层会消除这样的绝对数，使之成为相对值，从而造成高频信息的一个丢失。当然，这是我个人的一些理解，大家如果有其他的观点可以同我进行讨论～

EDSR与Bicubic对比图

上图是原论文中作者给出的实验效果图，可以看到EDSR的效果还是比较显著的。

4.训练思路（数据集准备）

我们都知道，相比较于模型或者算法来说，训练数据的优劣和适当性往往对结果产生决定性的影响，对于超分算法来说，不同的场景下训练集的准备也是必要的。比如说实际场景是原本清晰的2k海报图片经过网络传输的压缩后，采用分隔点提取的方式舍弃了部分像素点（可以理解为Bicubic的逆过程），因此再将其还原到最初的尺寸时（还原的过程是Bicubic），会以一种连续的方式补齐缺失的像素数量，导致图像像素变化过大（导数过大）的地方，变得连续而不突出，造成这种感官上的模糊，如下图上半部分的原图LR，下半部分为经过训练后的EDSR网络的output。

图片 1.png

经过分析而得出以上的结论后，我们准备数据的核心思想便是将一张张2k图片模拟网络压缩后作为训练数据的input，而原始2k图片作为训练数据对应的output，在两者之间架起神经网络训练出一套映射规则，此规则可以适用于诸如此类由于图片压缩场景下的超分应用。另外，以上的案例是一张图文并茂，红色线条和黑色字体结合的海报，因此我考虑到去ppt网站下载红黑风格并包含部分图片的2k高清ppt来截屏获取原始数据，并通过脚本将一张图片切割成四等块来增加训练数据量，如下图所示。

图片 1.png

获取到这些HR数据集后，我们再将每一张HR图片进行压缩处理，存储为对应的LR图片。这样我们就可以将HR图片和LR图片丢到EDSR中进行训练，生成模型参数文件。然后我们便可以将需要超分的目标图片投入到训练好的EDSR中，映射出的output便可以直观地与目标图片进行对比。
当然这只是超分领域的一个场景，我们在实际中会遇到各种原因造成的低分辨率问题，不只是压缩问题。“We must prescribe the right medicine from the source of the problem”，
想要训练出优质的神经网络来解决实际业务场景，则必须准备好对症下药的训练数据，在深度学习的各个领域都是如此，虽说深度学习是黑盒产物，但是输入输出端还是依赖于逻辑支撑的。

浅析EDSR——深度学习超分辨率算法

你可能感兴趣的:(浅析EDSR——深度学习超分辨率算法)