Learning to See in the Dark阅读札记

Learning to See in the Dark阅读札记

  论文发表于2018年的CVPR。
Learning to See in the Dark阅读札记_第1张图片

Abstract

本文目标:
   实现极端低光图像增强,包括降噪和正确的颜色变换。
贡献:
  (1)引入一个新的数据集See-in-the-Dark,包含原始的短曝光微光图像数据,以及相应的长曝光参考图像。
  (2)利用所提出的数据集,基于全卷积网络的端到端训练开发了一个处理微光图像的pipeline,该网络直接对原始传感器数据进行操作。

See-in-the-Dark Dataset

采集环境:
   SID包含室内和室外图像,室外场景中摄像机的照度一般在0.2-5 l u x lux lux之间。室内场景中摄像机的照度一般在0.03-0.3 l u x lux lux之间。
参数设置:
   输入图像的曝光设置在1/30-1/10 s s s之间,以100到300倍的曝光时间(即10-30 s s s)捕获相应的参考( g t gt gt)图像。
采集过程:
   使用两台相机拍摄图像:Sony α7S II和Fujifilm X-T2。相机固定在三脚架上,这里使用无反光镜相机来避免因反光镜飘动给图像造成模糊。对于每个场景都重新调整光圈、ISO、焦距和焦距等设置,以最大限度提高参考(长时间曝光)图像的质量。拍摄长曝光参考图像后,使用手机app远程操控相机,将曝光时间减少100到300倍,实现一系列短曝光图像的拍摄。
采集结果:
   See-in-the-Dark (SID)数据集包含5094张原始短曝光图像,424张长曝光参考图像(多个短曝光图像可以对应同一个长曝光参考图像)。Sony图像的分辨率为4240×2832,Fuji图像的分辨率为6000×4000。

  数据集总结如表所示:
Learning to See in the Dark阅读札记_第2张图片
  参考图像的小样本如图所示:

Method

1、pipeline

Learning to See in the Dark阅读札记_第3张图片
  本文方法不是对普通sRGB图像进行操作,而是对原始传感器数据进行操作。如图所示,对于Bayer阵列, 将输入打包成四个通道,并相应地将每个维度的空间分辨率降低两倍。(对于X-Trans阵列(图中未显示),原始数据按6×6块排列;通过交换相邻元素将其打包成9个通道而不是36个通道) 。将打包的四个通道减去black level 并按所需的放大率(例如x100或x300)缩放数据。打包和放大的数据被输入到一个完全卷积的网络中。输出是具有一半空间分辨率的12通道图像。这个半尺寸的输出由一个子像素层处理以恢复原始分辨率。管道核心的全卷积网络架构是U-Net。
  放大率决定了输出的亮度,这里的放大率是在外部设置的,并作为输入提供给管道,类似于相机中的ISO设置。下图显示了不同放大率的影响。用户可以通过设置不同的放大倍数来调整输出图像的亮度。
Learning to See in the Dark阅读札记_第4张图片

2、training

  使用 L 1 L_1 L1损失和 A d a m Adam Adam优化器从头开始训练网络。在训练期间,网络的输入是短曝光图像的原始数据, g t gt gt是sRGB空间中对应的长曝光图像(由原始图像处理库libraw处理)。放大率设置为训练和测试的输入图像和参考图像(例如x100、x250或x300)之间的曝光比。在每次迭代中,随机裁剪一个512×512的patch进行训练,并应用随机翻转和旋转进行数据增强。学习率最初设置为 1 0 − 4 10^{-4} 104,在2000个epoch后降低到 1 0 − 5 10^{-5} 105。训练进行了4000个epoch。

Experiment

1、 定性结果和感知实验

Comparison to traditional pipeline.

Comparison to denoising and burst processing.

Qualitative results on smartphone images.
  将在SID的Sony子集上训练的模型应用于iPhone 6s智能手机捕获的图像,该智能手机还具有Bayer过滤器数组和14 位原始数据。使用应用程序手动设置ISO和其他参数,并导出原始数据进行处理。具有代表性的结果如图所示。

2、控制实验

  下表根据峰值信噪比 (PSNR) 和结构相似性 (SSIM) 报告了所呈现管道的准确性,根据一系列控制实验,以评估管道中不同元素的影响。
Learning to See in the Dark阅读札记_第5张图片
Network structure.
  上表(第2行)表明了用CAN 替换U-Net 的结果。U-Net在两组上都有更高的 PSNR。虽然CAN生成的图像具有更高的SSIM,但它们有时会遭受色彩损失。下图显示了来自Fuji x300的patch,CAN无法正确恢复颜色。
Learning to See in the Dark阅读札记_第6张图片
Input color space.
  与对sRGB图像进行操作相比,在极端低光照条件下,直接对原始传感器数据进行操作更为有效,如表(第3行)所示。
Loss functions.
  如表(第4行和第5行)所示,用 L 2 L_2 L2 S S I M SSIM SSIM替换 L 1 L_1 L1损失会产生可比较的结果。
Data arrangement.
  如表(第6行)所示,对 Bayer数据(Sony子集)进行masking产生的 PSNR / SSIM低于packing。masking典型感知伪影是输出中的某些色调丢失。
  X-Trans数据在结构上与Bayer数据有很大不同,排列为6×6块。本文在相邻元素之间交换一些值以创建一个3×3模式,该模式被打包到9个通道中。如表(第7行)所示,6×6封装产生较低的PSNR/SSIM。典型的感知伪影是颜色和细节的损失。
Postprocessing.
  如表 (第 8行)所示,当将直方图拉伸应用于参考图像时,网络的准确度显著下降(因此网络必须学习直方图拉伸)。实验表明,管道不容易学习建模和操作整个图像的全局直方图统计数据,并且在面对此任务时容易过度拟合训练数据。因此从管道中排除直方图拉伸,并将其应用为后处理。下图显示了一个典型结果,其中尝试学习直方图拉伸会在测试时产生可见的伪影。在未拉伸的参考图像上训练的结果更暗但更清晰。

Discussion

未来研究方向

(1)本文工作没有解决 HDR色调映射。
(2)SID 数据集的局限性在于不包含人和动态对象。
(3)本文方法另一个限制在于必须在外部选择放大率。从输入中推断出良好的放大率会很有用,类似于自动ISO。
(4)本文方法是为给定相机传感器训练一个专用的网络,未来工作可以进一步研究低光成像网络的泛化能力。
(5)实现进一步运行时优化。本文方法分别需要0.38 和0.66秒来处理全分辨率Sony和Fuji图像,这对于全分辨率的实时处理来说还不够快。

你可能感兴趣的:(图像增强,计算机视觉,深度学习,神经网络)