目录
文章简介
模糊核退化
噪声退化
缩放退化
JPEG压缩退化
Ringing and overshoot artifacts
高阶退化
网络模型
效果
补充说明
论文名称:Real-ESRGAN-Training Real-World Blind Super-Resolution with Pure Synthetic Data
21年的一篇很好的论文,解决真实场景的SR问题,但是训练只使用了合成数据,没有用真实场景数据,测试是真实场景数据,在构造数据时,使用了高阶退化, 而不是只用了一阶退化,且考虑了ring和overshoot问题,D网络使用U-net型,且用了spectral normalization。当然,有些真实场景还 是解决不了的。
When σ1 = σ2, k is an isotropic Gaussian blur kernel; otherwise k is an anisotropic kernel.
generalized Gaussian kernels
plateau-shaped kernels
主要考虑高斯噪声和泊松噪声 泊松噪声是sensor采集是随着曝光不同而不同,和位置没关系,参数主要为高斯噪声强度参数标准差,泊松噪声scale.
主要考虑the area, bilinear and bicubic operations三种,最近邻由于有位置对齐问题不考虑
The quality of compressed images is determined by a quality factor q ∈ [0, 100], where a lower q indicates a higher compression ratio and worse quality. We use the PyTorch implementation - DiffJPEG
主要参数时质量因子q
主要考虑二级退化,流程如图所示
Gaussian kernels, generalized Gaussian kernels and plateau-shaped kernels,
概率分别为{0.7, 0.15, 0.15},
模糊核大小{7, 9, ...21}
模糊核标准差 [0.2, 3],第二阶的为[0.2, 1.5]
generalized Gaussian kernels的β为 [0.5, 4]
plateau-shaped kernels的β为 [1, 2]
sinc kernel 的概率为0.1
用0.2的概率跳过二阶模糊退化
Gaussian noises and Poisson noises 概率为 {0.5, 0.5}.
高斯噪声sigma 范围 [1, 30]
Poisson noise scale 为[0.05, 3]
第二阶分别为[1, 25] 和 [0.05, 2.5].
灰度噪声概率为0.4.
JPEG compression 范围为[30, 95].
sinc filter的概率为0.8
扩展了原来的ESRGAN,同时支持x1,x2,x4
使用pixel-unshuffle减少空间大小,增加通道数
D网络使用U-net型,且用了spectral normalization
训练先用L1-Loss,用Real-ESRNet表示
之后再加per loss和gan loss,用Real-ESRGAN表示
把GT进行了锐化处理,用Real-ESRGAN+
使用三个数据集 DIV2K, Flickr2K and OutdoorScene
测试时使用真实场景的图像,效果很惊艳,主要是退化模型考虑了多次退化,考虑了多种复杂的模糊核,D网络中使用spectral normalization,sinc filter等,论文对这几个方面做了消融试验。
能够得到这么好的结果,除了数据构造方面,还得益于网络很强大,如果没有这么强大的网络,估计也得到不这么好的效果,如果是小点的网络,轻量级的,可以重点考虑解决其中一种或者某几个退化,而不考虑全部的。