原论文作者 Ruixing Wang; Qing Zhang; Chi-Wing Fu Xiaoyong Shen Wei-Shi Zheng Jiaya Jia;
原论文CVPR2019链接
原代码链接
本文提出了一种新的神经网络来增强曝光不足的照片。我们没有像以前那样直接学习图像到图像的映射,而是在我们的网络中引入中间光照,将输入与预期的增强结果相关联,从而增强了网络从经过专家修饰的输入/输出图像对学习复杂的摄影调整的能力。在此模型的基础上,我们构造了一个对光照采用约束和先验的损失函数,准备了3000对低曝光图像对的新数据集,训练网络有效地学习多种光照条件下的各种调节。通过这些方法,我们的网络能够在增强结果中恢复清晰的细节、鲜明的对比和自然的颜色。我们对基准的MIT-Adobe FiveK数据集和我们的新数据集进行了广泛的实验,并表明我们的网络能够有效地处理以前具有挑战性的图像。
社交网络上的照片分享非常普遍,因为各种设备上都有现成的相机,尤其是手机。然而,由于低光和背光,捕捉到的照片可能会曝光不足;有关示例,请参见图1(a)。这样的照片不仅看起来不好看,不能捕捉到用户想要的,而且挑战了许多基本的计算机视觉任务,比如分割,目标检测和跟踪,因为曝光不足的区域有几乎不可见的细节和相对较低的对比度,以及暗淡的颜色。
严重曝光不足的照片增强是一项具有挑战性的任务,因为曝光不足的区域通常是难以察觉的,增强过程是高度非线性和主观的。虽然存在允许用户交互调整照片的软件,但对于非专业人士来说,这是相当乏味和困难的,因为它需要同时操纵颜色和对比度等控件,同时精细地调整照片中的各种对象和细节。最近的一些工具为用户提供了一个自动化的功能,用户只需点击一下就可以增强照片,例如iPhone上的“自动增强”和照片管理软件中的“自动色彩补偿功能”。这些工具不会很大地改变图像的对比度(和曝光率),而且由于在调整时自动平衡各种因素的固有困难,在曝光严重不足的图像上可能会失败;参见图1。
另一方面,学术界也提出了各种方法来解决这一问题。早期的工作[34,25,32,11,26,4]主要关注对比度增强,这可能不足以恢复图像的细节和颜色。最近的研究[16、17、13、9、15、22]采用数据驱动的方法,同时学习色彩、对比度、亮度和饱和度方面的调整,以产生更具表现力的结果。我们注意到现有的方法对严重曝光不足的图像仍有各自的局限性;参见图2。
本文提出了一种新的端到端图像增强网络。明确地说,我们没有直接学习图像到图像的映射,而是设计我们的网络,首先估计用于建模各种光照条件的图像到光照映射,然后使用光照映射照亮曝光不足的照片。通过这种方法,我们使学习过程有效,推断出丰富多样的摄影调整。此外,为了降低计算成本,我们采用了基于双边网格的上采样,并设计了一个在光照上采用各种约束条件和先验的损失函数,使我们能够有效地恢复自然曝光、对比度合适、细节清晰、色彩鲜艳的低曝光照片。我们还准备了一个新的数据集,包含3000张曝光不足的照片,涵盖了不同的照明条件,以补充现有的基准数据。下面,我们总结一下这项工作的主要贡献。
图像增强在计算机视觉和图像处理领域有着悠久的历史。其中一个开创性的方法是著名的直方图均衡化,它扩大了动态范围,增加了图像对比度。它的局限性是在整个图像中明显的全局调整对比度。
基于Retinex理论的增强算法(Retinex-based Methods):假设图像可以分解为反射率和光照(或阴影)的像素级乘积,基于Retinex理论的方法[19]将反射率分量视为增强图像的似是而非的近似。因此,照片增强可以表述为光照估计问题,其中光照估计用于增强曝光不足的照片[27,11,31,14,4,33]。然而,由于颜色通道的非线性和数据的复杂性,现有的方法对颜色的增强能力有限,因为颜色很容易在局部失真。我们的工作也考虑到照明估计,但它在两个方面提高了技术水平。首先,神经网络利用大量的照片在不同的光照条件下学习光照,并对各种摄影调整进行建模。其次,我们的方法能够从多通道照明中使非线性色彩增强。
基于学习的方法(Learning-based Methods):最近在照片增强方面的努力主要是基于学习。例如,Bychkovsky等人的[3]提供了第一个和最大的数据集MIT-Adobe FiveK,其中输入和专家润色的图像对用于色调调整。Yan等人提出了一种用于自动增强照片颜色的机器学习排序方法。Yan等人构建了语义图来实现语义感知的照片增强。Lore等[21]提出了一种基于深度自编码的微光图像增强方法,Gharbi等[13]则引入了双边学习的实时性能。Yang等人使用深度往复HDR变换对LDR图像进行校正。Cai等人从多次曝光的图像中学习了对比度增强器。最近,Chen等人[9]开发了一种基于双向生成对抗网络(GANs)的非配对学习模型,Ignatov等人[18]设计了一种基于弱监督的图像到图像GAN网络。此外,Deng等人的[10]通过对抗学习实现了审美驱动的图像增强,而Chen等人的[6]则通过使用新数据集直接操作原始传感器数据来处理极端微光成像。
增强学习也被用来增强图像的调整过程[15,22]。我们的方法在两个方面补充了现有的基于学习的方法。首先,我们估计光照映射,不像其他基于图像到图像的回归。其次,我们的新数据集正好适合曝光不足的照片增强,它补充了其他基准数据集,并在不同的光照条件下提供了更多的实际例子。
从根本上讲,图像增强的任务可以被看作是寻求一个映射函数F,这样 I ˇ = F ( I ) \check{I}=F(I) Iˇ=F(I)是想得到的图像、由输入图像 I I I增强得到 I ˇ \check{I} Iˇ。在最近的基于Retinex理论的图像增强方法[11,14]中,通常将F的逆函数建模为光照映射S,它与反射率图像 I ˇ \check{I} Iˇ以像素级的方式相乘,生成所观察到的图像I: I = S ∗ I ˇ , ( 1 ) I=S * \check{I},(1) I=S∗Iˇ,(1)其中*表示以像素级的方式相乘
与[11,14]相似,我们也将反射率分量 I ˇ \check{I} Iˇ作为曝光良好的图像,因此在我们的模型中,我们将 I ˇ \check{I} Iˇ作为增强结果, I I I作为观测到的低曝光图像。一旦S已知,就可以通过 F ( I ) = S − 1 ∗ I F(I)=S^{-1}*I F(I)=S−1∗I 得到增强结果 I ˇ \check{I} Iˇ。与现有的工作[11,14]不同,我们将S建模为一个多通道(R, G, B)数据,而不是单通道数据,以提高其建模颜色增强的能力,特别是处理不同颜色通道之间的非线性。
为什么这么做有效呢? 通过在网络中引入中间光照,我们训练网络学习图像到光照(而不是图像到图像)的映射。其主要优点是自然图像的光照映射通常具有相对简单的形式和已知的先验。因此,该网络具有较强的泛化能力,能够有效地训练,学习复杂的摄影调整,适应不同的光照条件。此外,该模型可以通过制定光照约束来定制增强结果。例如,可以通过强制局部平滑照明来增强对比度,或者通过限制光照强度来设置首选曝光级别。
图3展示了我们的网络的传递途径,具有光照映射的有效学习和网络计算的高效两大优势。
有效学习 增强曝光不足的照片需要同时调整局部特征(如对比度、细节锐度、阴影和高光)和全局特征(如颜色分布、平均亮度和场景类别)。我们从编码器网络产生的特性来考虑局部和全局环境;参见图3(顶部)。为了驱动网络从输入的低曝光图像 ( I i ) (I_i) (Ii)和相应的专家修饰的图像 I i ˇ \check{I_i} Iiˇ中学习光照映射,我们设计了一个损失函数,该函数对光照具有先验的平滑性,对增强图像具有重建和颜色损失;参见图3(底部)。这些策略从 ( I i , I i ˇ ) (I_i,\check{I_i}) (Ii,Iiˇ)有效地学习S,通过丰富的摄影调整来恢复增强后的图像。
高效运行 我们在低分辨率领域学习了图像到光照映射预测的局部和全局特征,并进行了基于双边网格的上采样[8,7,12,13],将低分辨率预测放大到全分辨率;参见图3。因此,大部分网络计算都是在低分辨率领域进行的,能够实时处理高分辨率图像。
我们从N对图像 { ( I i , I i ˇ ) } i = 1 N \{(I_i,\check{I_i})\}{^N_{i=1}} {(Ii,Iiˇ)}i=1N中学习光照映射,它产生S和增强结果 F ( I ) = S − 1 ∗ I F(I)=S^{-1}*I F(I)=S−1∗I ,在网络训练过程中,我们设计了一个由三个部分组成的损失函数 L L L,并将其最小化。它表示为 L = ∑ 1 N ω r L r i + ω s L s i + ω c L c i , ( 2 ) L=\sum_1^N{\omega_r}L{^i_r}+{\omega_s}L{^i_s}+{\omega_c}L{^i_c},(2) L=1∑NωrLri+ωsLsi+ωcLci,(2) 其中 L r i , L s i 和 L c i L{^i_r},L{^i_s}和L{^i_c} Lri,Lsi和Lci都是损失部分, ω r , ω s 和 ω c \omega_r,\omega_s和\omega_c ωr,ωs和ωc都是相应的权重。根据经验我们设置 ω r = 1 , ω s = 2 , ω c = 3 \omega_r=1,\omega_s=2,\omega_c=3 ωr=1,ωs=2,ωc=3
重建的损失为了得到预测的光照S,我们定义测量重建误差的 L 2 L_2 L2误差度量为 L r i = ∣ ∣ I i − S ∗ I i ˇ ∣ ∣ 2 , ( 3 ) s . t . ( I i ) c ≤ ( S ) c ≤ 1 , ∀ p i x e l c h a n n e l c L{^i_r}=\mid\mid{I_i-S*\check{I_i}}\mid\mid^2,(3) s.t. (I_i)_c\leq(S)_c\leq1,\forall pixel channel c Lri=∣∣Ii−S∗Iiˇ∣∣2,(3)s.t.(Ii)c≤(S)c≤1,∀pixelchannelc
其中 I i 和 I i ˇ I_i和\check{I_i} Ii和Iiˇ中的所有像素通道归一化为[0,1], ( ) c ∈ { r , g , b } ()_c\in\{r,g,b\} ()c∈{r,g,b}表示像素颜色通道, ( I i ) c ≤ ( S ) c ≤ 1 (I_i)_c\leq(S)_c\leq1 (Ii)c≤(S)c≤1是多通道光照范围约束。因为 F ( I i ) = S − 1 ∗ I i F(I_i)=S^{-1}*I_i F(Ii)=S−1∗Ii ,所以设置 I i I_i Ii为S的下界,以确保所有颜色通道在增强结果 F ( I i ) F(I_i) F(Ii)以1为上界,因此要避免超出色域的颜色,而将1设置为S的上界可以避免错误地使曝光不足的区域变暗。
图4为消融研究结果,显示了不同组分对损耗函数的影响。对比图中第二幅和第三幅图像,通过最小化重建损失,我们可以看到更清晰的细节和更好的对比度。它比单纯的图像到图像的回归有明显的优势,后者直接回归输出图像,而不估计我们网络中的中间光照(见图3)。虽然经过重构损失增强后的图像与经过专家润色后的图像更加相似,但仍然存在无法产生正确对比度细节和鲜艳颜色的风险(图4中的第3和第6张图像),因此我们也引入了平滑度和颜色损失。
平滑度损失 根据先验光滑性[23,20,2],自然图像中的光照一般为局部光滑。在我们的网络中采用这种优先级有两个优点。首先,它有助于减少过拟合,提高网络的泛化能力。其次,它增强了图像的对比度。当相邻像素p和q的光照值相似时,增强后图像的对比度可以估计为 ∣ I p ˇ − I q ˇ ∣ ≈ S p − 1 ∗ ∣ I p − I q ∣ \mid\check{I_p}-\check{I_q}\mid\approx{S{^{-1}_p}}*\mid{I_p}-{I_q}\mid ∣Ipˇ−Iqˇ∣≈Sp−1∗∣Ip−Iq∣,它也应该被扩大,因为 S ≤ 1 S\leq1 S≤1。 因此,我们将图3中预测的全分辨率光照S的平滑度损失定义为
我们对所有像素的所有通道(c)求和, ∂ x 和 ∂ y \partial_x和\partial_y ∂x和∂y是图像空间中水平方向和垂直方向的偏导数; ω x , c p 和 ω y , c p \omega{^p_{x,c}}和\omega{^p_{y,c}} ωx,cp和ωy,cp是空间变化(每通道)平滑度权重,表示为
其中, L i L_i Li是输入图像 I i I_i Ii的对数图像; θ = 1.2 \theta=1.2 θ=1.2是一个参数,控制对图像梯度的敏感度; ϵ \epsilon ϵ一个小常数通常设置为0.0001,防止除零。
直观地说,平滑度损失鼓励光照在小梯度的像素上是平滑的,而在大梯度的像素上是不连续的。有趣的是,对于曝光不足的照片,图像内容和细节往往很弱。较大的渐变更可能是由不一致的光照造成的。如图4中的第4幅图像所示,通过进一步加入平滑度损失,我们恢复了良好的图像对比度,与仅重建损失的结果相比,细节更加清晰。
颜色损失: 接下来,我们制定颜色损失使生成的图像 F ( I i ) F(I_i) F(Ii)中 I i I_i Ii的颜色与相应的专家润色图像 I i ˇ \check{I_i} Iiˇ中的颜色匹配
( ) p ()_p ()p表示一个像素, ∠ ( , ) \angle (,) ∠(,)是一个运算符,它将RGB颜色作为三维向量计算两种颜色之间的夹角。公式(6)对 F ( I i ) F(I_i) F(Ii)和 I i I_i Ii中每个像素对的颜色向量夹角求和。
我们在其他颜色空间中使用这个简单的公式而不是L2距离的原因如下。首先,重构损失已经隐含地测量了L2色差。其次,由于L2度量标准仅用数值方法测量色差,因此不能保证颜色向量具有相同的方向。因此,这个度量标准可能会导致明显的颜色不匹配。这可以通过对比图4中有和没有颜色丢失的第4和第5个结果来观察。最后,该公式对网络计算简单、快速。
我们准备了一个包含3000张图片的新数据集。我们用它来训练我们的网络,而不是MIT-Adobe FiveK dataset[3],原因有两个。首先,FiveK数据集主要用于增强普通照片,而不是曝光不足的照片;它只包含非常小的一部分(大约4%)曝光不足的图像。其次,基准数据集中曝光不足的图像覆盖了有限的光照条件;它缺乏挑战性的情况,如夜间图像和非均匀照明的图像。
为了准备我们的数据集,我们首先使用Canon EOS 5D Mark III和索尼ILCE-7捕捉分辨率为6000*4000的图像,然后通过搜索关键字“曝光不足”、“弱光”和“背光”从Flickr进一步收集了大约15%的图像。然后,我们从摄影学院招募了三名专家,使用Adobe Lightroom为每个收集到的图像准备一个经过修饰的参考图像。我们的数据集是多样化的;它涵盖了广泛的照明条件,场景,主题和风格。有关一些图像对,请参见图5。最后,我们将数据集中的图像随机分为两个子集:2750张用于训练的图像和测试的图像。
我们在TensorFlow[1]上构建我们的网络,并在NVidia Titan X Pascal GPU上以16个小批处理大小对其进行40次迭代的培训。整个网络使用Adam优化器进行优化,固定学习率为 1 0 − 4 10^{-4} 10−4。为了增加数据,我们随机裁剪了512 512个patch,然后随机镜像、调整大小和旋转所有patch。下采样输入的固定分辨率为256256。编码器网络是一个预先训练的VGG16[24]。局部特征提取器包含两个卷积层,全局特征提取器包含两个卷积层和三个全连通层。此外,我们使用基于双边网格的模块[13]对输出进行向上采样。
数据集 我们在(i)我们的数据集和(ii) MIT-Adobe FiveK[3]数据集上评估了我们的网络,该数据集包含5000个原始图像,每个数据集包含5个由不同专家生成的经过修饰的图像(A/B/C/D/E)。对于MIT-Adobe FiveK数据集,我们遵循前面的方法[13,15,22],只使用Expert C,的输出,随机选择500幅图像进行验证和测试,并对剩余的4500幅图像进行训练。
评价标准 我们使用了两个常用的度量标准(即PSNR和SSIM)来定量评估我们的网络性能,根据预测结果和相应的专家润色图像之间的颜色和结构相似性。虽然这不是绝对的指示性,但总的来说,高的PSNR和SSIM值对应着相当好的结果。
我们将我们的方法与以下五种最先进的图像增强方法进行了比较:(i)最新的基于Retinex理论的方法,JieP [4],(ii)-(v) HDRNet[13]、DPE[9]、白盒[15]和畸变恢复[22]四种最新的基于深度编码的方法。为了进行公平的比较,我们使用作者提供的具有推荐参数设置的公开可用的实现来生成它们的结果。对于这四种基于学习的方法,我们进一步在我们的数据集和MIT-Adobe FiveK数据集上重新训练它们的模型,以产生最佳的可能结果。我们的比较是三倍的。
可视化比较首先,我们在图6和图7中对两个具有挑战性的案例进行了可视化比较,使用的是带有难以察觉的风车细节的不均匀曝光照片(来自我们的数据集)和带有少量肖像细节的整体微光照片(来自MIT-Adobe FiveK数据集)。比较结果,我们注意到我们的方法(h)比其他方法(b)-(f)有两个关键的改进。首先,我们的方法能够恢复更多的细节和更好的对比度在前景和背景,没有明显牺牲过/低曝光部分的图像。其次,它还显示生动和自然的颜色,使增强的效果看起来更现实。更多的视觉对比结果请参见补充资料。
定量比较 为了评估网络的学习效率和泛化能力,我们使用PSNR和SSIM指标对其与其他方法进行了定量比较。表1和表2报告了结果,对于每种情况,我们都在各自的数据集上对网络和其他网络进行了重新培训。注意,在没有 L r 、 L s 和 L c L_r、L_s和L_c Lr、Ls和Lc的情况下,我们的损失函数减少为数据集中对应图像对之间的像素级 L 2 L_2 L2损失。在这里,我们不包括JieP[4],因为它不是一个基于学习的方法。对于这两种比较,我们的方法都表现得更好,这表明我们的方法不仅有效地学习了用于增强低曝光照片的照片调整,而且很好地泛化到具有有限数量低曝光照片的MIT-Adobe FiveK数据集。
用户研究 此外,我们对500名参与者进行了一项用户研究,以比较结果。与[22]类似,我们首先从Flickr中使用城市、花卉、食物、景观和人像等关键词进行搜索,抓取100个测试图像,这些图像的像素超过50%,亮度低于0.3(图9是一个例子)。然后,我们使用我们的方法和其他方法对每个测试图像进行增强,并通过Amazon Mechanical Turk招募参与者对每组结果进行评分,这些结果以随机的顺序呈现,以避免主观偏见。
对于每个结果,参与者被要求为图8中所示的六个问题中的每一个打分,使用李克特量表,从1(最差)到5(最好)。图8总结了结果,其中每个子图显示了针对特定问题的方法的六个评级分布。不同方法之间的分布表明,我们的结果更受人类受试者的青睐,与其他方法相比,我们的方法得到的红色评分更多,蓝色评分少得多。我们也对评分进行统计分析,我们的方法与其他方法进行配对t检验。结果表明:所有t检验结果均有统计学意义,p < 0.01。详见补充资料。此外,我们还将用户研究扩展到与iPhone上的“自动增强”和Lightroom中的“自动色彩补偿功能”进行比较。补充材料中也载有结果。
消融研究 除了图4所示的可视化结果外,我们还定量地评估了方法中组件的有效性。对比表1和表2中最后一行(我们的方法)和第5行(我们没有三种损失的方法)的统计数据,我们发现我们的方法在学习图像到光照的映射方面明显优于简单的图像到图像的映射。此外,对于MIT-Adobe FiveK数据集和我们的数据集,每个表的最后四行通过在方法中包含更多的损失部分,显示了对结果的逐步改进。它们令人信服地证明了每一个损失组成部分的有效性。
局限性 图10给出了两个例子,在这两个例子中,我们的方法以及其他最先进的技术都不能产生令人信服的视觉效果。对于顶部的图像,我们无法恢复马身上的细节,因为原始图像中的区域几乎是黑色的,没有任何纹理的痕迹,而对于底部的输入,我们的方法在增强结果中没有清除噪声。因此,增强去噪能力将是我们未来的目标。
我们提出了一个新的端到端网络来增强曝光不足的照片。我们的核心思想是学习图像到光照(而不是图像到图像)的映射,从而利用自然图像中光照的简单性,为网络有效地学习各种摄影调整。此外,我们设计了一个损失函数,它采用了光照方面的各种约束和先验,并创建了一个包含3000对曝光不足的图像对的新数据集,使我们的网络能够恢复曝光不足的照片中清晰的细节、鲜明的对比度和生动的颜色。我们也进行了广泛的试验数据集和MIT-Adobe FiveK数据集,我们的方法和五个最先进的方法进行比较,来展示我们的解决方案在视觉对比上的优越性,定量比较的PSNR和SSIM指标,以及一个涉及500名参与者的用户研究。
我们未来的工作是将去噪模块整合到我们的网络中,并扩展我们处理视频的方法。另一个方向是利用场景语义分析和图像合成技术来处理接近黑色的区域。