基于深度学习的图像增强方法在图像恢复和增强方面取得了显著的成功,但它们需要成对数据训练。
但目前使用成对数据训练存在的问题:
1)同时捕捉同一视觉场景的损坏图像和ground truth图像是非常困难的 。例如,同时捕捉低光和正常光图像对;
2)从干净的图像中合成损坏的图像有时会有帮助,但这样的合成结果通常不够逼真,导致在将训练好的模型应用于真实世界的低光图像时产生各种伪影;
3)对于低光增强问题,在低光图像中可能没有独特的或明确定义的高光ground truth。例如,任何从黎明到黄昏拍摄的照片都可以被视为在同一场景的午夜拍摄的照片的高光版本。
考虑到上述问题,该文的首要目标是增强具有空间变化的光照条件和过度/不足曝光和存在伪影的弱光照片。
我们采用GAN在低光图像空间和正常光图像空间之间建立一个不配对的映射,而不依赖于精确配对的图像。
采用注意力引导的u-net作为生成器,使用全局-局部判别器来引导全局和局部信息,对于全局判别器,利用最近提出的相对论判别器结构来估计真实数据比假数据更真实的概率,并指导生成器合成比真实数据更真实的假图像。局部判别器,通过从输出和真实正态光图像中随机提取局部patch,并学习区分它们是真实的还是假的。全局-局部结构确保了增强图像的所有局部斑块看起来都像真实的正常光,避免局部曝光过度或曝光不足;此外,由于缺乏ground-truth的监督,提出了一种自正则化的感知损失来约束弱光输入图像与其增强图像之间的特征距离,保持纹理和结构。
公式
相对判别器的函数:
全局判别器和生成器的损失函数:
局部判别器和生成器的损失函数:
自特征保持损失:
计算input low-light和enhance normal-light output特征距离的损失
总的损失函数:
数据集构成:
1)训练图像:
在现有的一些数据集上收集更大规模的未配对训练集,包括不同的图像质量和内容,构成了914张低光图像和1016张正常光图像的混合训练集。
所有这些照片都转换为PNG格式,并调整大小为600 × 400像素。
2)测试图像:
我们选择之前工作的NPE , LIME , MEF, DICM, VV中使用的标准图像。
四组实验:
1)视觉质量对比
将放大包围框中的一些细节。NPE和SRIE未能增强背景细节(看车的图比较明显)。LIME会导致女性面部过度曝光,这使得结果失真,并且由于一些信息的缺失而变得耀眼。 LLNet产生严重的颜色失真。CycleGAN和RetinexNet在亮度和自然度方面产生不满意的视觉效果。相比之下,EnlightenGAN不仅成功地学会了增强暗区,还保留了纹理细节,避免了过度曝光的伪影,明显优于其他方法。
2)人的主观研究
从测试集中随机选取了23幅图像,每幅图像首先用5种方法进行增强(LIME、RetinexNet、NPE、SRIE和EnlightenGAN)。然后,我们要求9名受试者以成对的方式独立比较这5种输出。具体来说,每次一个人被展示时,都会从五个输出中随机抽取两幅图像,并被要求评估哪幅图像的质量更好。指示受试者考虑以下问题:1)图像是否含有可见噪声;2)图像是否含有过量或过曝的伪影;3)图像是否显示不真实的颜色或纹理失真。接下来,我们拟合了一个Bradley-Terry模型来估计主观评分的数值。因此,每个方法在该图像上都被赋以1-5的排名。我们对所有23幅图像重复上述操作。
图5显示了五个直方图,每个直方图描述了一个方法在23幅图像上接收到的秩分布。例如,EnlightenGAN在23张图片中有10张排名第一(主观评分最高),8张排名第二,5张排名第三。通过对比这五幅直方图,我们可以清楚地看到,EnlightenGAN得到了人类被试总体上最喜欢的结果。
3)无参考的图像质量评估
我们采用自然图像质量评估器(NIQE)进行定量比较,这是一种著名的无参考图像质量评估工具,用于评估无ground truth的真实图像恢复。表1展示了NIQE分别在整个测试集(All)和每个子集(MEF、LIME、NPE、VV、DICM)上得分:较低的NIQE值表示更好的视觉质量。
EnlightGAN在五个数据集中有三个数据集效果更好,并且在总体平均NIQE方面是最好的。这进一步证明EnlightGAN在产生高质量的视觉效果方面优于目前最先进的方法。
然后这里需要注意和全参考图像质量评估方法的比较,如SSIM和PSNR,它们适用于pair的方法
4)消融实验
设计了两个实验,分别去掉了局部判别器和注意机制的组成部分。
增强的结果在第三行和第四行上往往包含局部地区严重的颜色失真或曝光不足,也就是说, 相比之下,充分使用EnlightenGAN的结果色彩逼真,视觉上更令人愉悦,验证了全局-局部判别器的设计和自我规范的注意机制的有效性。
第一行显示输入图像。第二行显示输入图像的注意力图,我们可以很容易地观察到,注意图给算法提供了一个很好的指导,哪个区域应该增强更多,而其他区域应该增强更少。第三行是只有全局判别器来区分弱光和正常光图像的图像。第四行是未采用自我规范注意机制,使用U-Net作为生成器。最后一行是用EnlightenGAN方法的图像。
EnlightenGAN:未经任何BBD-100k调整的预先训练的模型;2)EnlightenGAN-N: EnlightenGAN的领域适配版本,使用BBD-100k数据集中的BBD-100k低光图像,而normal-light图像仍然是未配对数据集的高质量图像进行训练。
LIME的结果存在严重的噪声放大和过度曝光伪影,而AHE没有提高足够的亮度。CycleGAN方法由于其不稳定性生成低质量的图片。EnlightenGAN导致了在这个看不见的图像域的artifacts。EnlightenGAN-N产生了最令人愉悦的视觉效果,在亮度和伪影/噪声抑制之间取得了令人印象深刻的平衡。
2)作为改善后续高级视觉任务的预处理
光照增强对ExDark数据集的影响:使用ExDark数据集的测试集,使用我们的EnlightenGAN作为预处理步骤,然后通过另一个在ImageNet预训练的ResNet-50分类器,既不进行领域适应,也不进行联合训练。高级任务性能作为增强结果的固定语义感知度量。
在低光测试集中,使用EnlightenGAN作为预处理,提高了分类精度,从22.02% (top-1)和39.46% (top-5)提高到23.94% (top-1)和40.92% (top-5)。这提供了一个侧面的证据,除了产生视觉上令人愉快的结果以外,EnlightenGAN还保留了语义细节。我们还用LIME和AHE进行了实验。LIME将准确率提高到23.32% (top-1)和40.60% (top-5),而AHE提高到23.04% (top-1)和40.37% (top-5)
ExDark数据集,专门为低光图像识别而构建的。由7363张低光图像组成,其中训练集图像3000张,验证集图像1800张,测试集图像2563张,注释为12个对象类: Bicycle; Boat; Bottle; Bus; Car; Cat; Chair; Cup; Dog; Motorbike; People; Table。
论文亮点:
(1)不需要成对的数据对训练
(2)全局和局部判别器引导+自正则化思想
(3)性能良好,比成对的方法更灵活
论文不足:
(1)对于训练数据要求严格,需要精心挑选
(2)关于主观视觉那里,选择9个人和23个样本,样本数不够,说服力不强
(3)消融实验部分缺少客观评价
(4)这篇文章以主观评价为主,缺失客观评价的部分
(5)主观效果好的SRIE没有放在Fig6里比
论文展望:
(1)探索如何在一个统一的模型中基于用户的输入来控制和调整光照增强水平;
(2)由于光照增强的复杂性,希望将算法与传感器的创新相结合