论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network

论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network

  • 摘要
  • 论文要点
    • 研究目的
    • 解决方案简要
  • 网络设计
    • content stream
    • edge stream
    • 最后的融合
    • 损失函数
  • 相关试验
  • 个人对论文、模型的评价
  • 相关链接

摘要

在光线不足的环境中,摄像头传感器通常无法捕捉清晰的图像或视频。在这篇论文中,作者提出一个可训练的混合网路来提升退化影像的可见度。该网络由两个不同的流组成,在一个统一的网络中同时学习全局内容和清晰图像的显著结构。更具体地说,内容流(content stream)通过编码器-解码器网络估计低光输入的全局内容。然而,内容流中的编码器往往会丢失一些结构细节。为了弥补这一缺陷,我们提出了一种新的空间变异递归神经网络(RNN)作为边缘流(edge stream),在另一个自动编码器的引导下对边缘细节进行建模。实验结果表明,与现有的微光图像增强算法相比,该网络具有良好的性能。

论文要点

研究目的

旨在弥补现有的弱光增强模型在结构细节上有所丢失的缺陷;

解决方案简要

提出了一种新的空间变异递归神经网络(RNN)作为边缘流(edge stream),在另一个自动编码器的引导下对边缘细节进行建模。(就是除了利用图像原本的信息之外,还利用了从图像提取而来的边缘隐藏信息。)

网络设计

总体网络结构如下:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第1张图片
该网络主要包括content stream和Edge stream;前者旨在初步预测图像的全局特征,后者旨在利用RNN来提取图像的边缘隐藏信息的特征;然后再联合两种features map来进一步增强图像的对比度。

content stream

论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第2张图片

近年来编码器-解码器网络在图像去噪、除雾、修复、消光和协调(harmonization)上都有比较好的效果;于是作者在content stream中采用的也是 encoder-decoder 的结构,值得注意的是,前两层卷积层采用的是膨胀卷积;其余部分与U-Net结构类似;

edge stream

在一维方向上(以图像第一行从左到右为例),作者采用以下方式来提取边缘信息;
在这里插入图片描述
h为所求结构,g、p为权重参数,x为图像元素,k表示位置;总体上来说,h[k]上包含有图像在k位置x[k]的信息,还包含有上一个位置的边缘信息h[k-1],这两者的所占程度受g[k]和p[k]控制;而g,p是未知的,或者说本应有人为给定,但是人为又难以给定,因此作者采用可学习的g,p来协助提取边缘信息;以下为edge stream的网络结构:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第3张图片

edge stream部分是整篇论文的主要说明部分,也是其亮点之处;edge stream也包含一个Encode-Deconde结构,该结构旨在求解出g,h;而下方的结构为下采样+conv和resize的操作;把inputimage分别下采样到1/2,1/4,1/8,然后进行一次卷积操作;然后再将1/2,1/4,1/8大小的map resize到和原来的大小一致。然后分别从左->右,右->左,上->下,下->上四个方向根据上面提到的公式来得出各方向上的h,最后用每个k位置的四个方向的h[k]的最大值来作为k位置的边缘隐藏信息(即图中的Max-pooling);
以下为从左->右的示意图:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第4张图片

最后的融合

论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第5张图片

最后采用两个卷积层来融合前面所得到的两种feature;

损失函数

作者采用三种loss来指导该模型的训练.
第一种为MSE Loss,ground-truth与生成的图 I I I的MSE:
在这里插入图片描述

第二种Perceptual Loss,反映groud-truth与生成的图 I I I在一个预训练的VGG-16下提取的特征的差距:

在这里插入图片描述
第三种为Adversarial Loss,引入了一个鉴别器与原网络构成一个对抗网络;其对抗损失为:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第6张图片
最终将三个损失按一定比例结合起来:
在这里插入图片描述
其中 λ p = 0.05 , λ p = 1 e − 5 \lambda _p=0.05,\lambda_p=1e^{-5} λp=0.05,λp=1e5

相关试验

作者从Adobe FiveK dataset中选取了336对所需的图像对来进行训练,并做相关实验;
①与其他算法的结果比较:


在数据集中不同类别图像下的PSNR、SSIM比较:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第7张图片
② 为反映在HSV空间下的颜色保真度,作者又与其他算法作了HSV保真情况的比较:
在V通道下的视觉效果:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第8张图片
生成图与ground-truth在HSV的MSE的比较:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第9张图片
③在DPED dataset的测试比较:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第10张图片
④运行效率的比较:
论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第11张图片
⑤ Edge stream作用的消融实验:

论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network_第12张图片
⑥ 在①③实验中,还了带有各损失函数的消融实验;

个人对论文、模型的评价

我觉得新颖的是人为加入一些可解释的功能模块(即那个edge stream来对细节的补充),而不是一股脑的放一些功能都难以解释清楚虽然效果确实好的模型;作了很充足的实验,如各loss与edge stream的消融实验。
整篇论文读下来之后,让我比较疑惑的是作者是从何得知经过edge stream那样的模型结构就能够提取出各方向的边缘信息,而不是高频的内容信息呢(因为内容信息也可以通过RNN提取得到)?读的过程中期待着能有损失函数来特别指导着edge-stream往边缘信息提取的方向进行,但是并没有使用特别的损失函数来指导其进行。也许是作者根据先验知识(该先验知识是我尚且不了解的)来构建的,或者是本抱着尝试的方式,然后从结果中来看,确实起到了边缘信息的提取作用。这些疑惑可能要等后面再深入了解才能很好的得以解决吧。

相关链接

paper: Low-Light Image Enhancement via a Deep Hybrid Network

你可能感兴趣的:(论文阅读笔记,弱光增强,计算机视觉,深度学习,神经网络)