对于动态场景来说,从一组不同曝光的图像中生成高动态范围(HDR)图像是一个具有挑战性的过程。
这个问题可以分为两个阶段:1)对齐输入的LDR图像,2)合并对齐的图像到HDR图像。
方法主要分为两类:
现有HDR技术首先将输入图像对齐到参考图像,然后将对齐的图像合并得到HDR图像。然而,在最终的HDR图像中,对齐的artifact通常以重影和撕裂的形式出现。而该论文发现,在合并期间,对齐的artifact可以显著减少,它需要检测带有artifact的区域,并将它们从最终结果中排除。因此该论文也主攻融合这一块,靠融合解决artifact,作者采用CNN进行融合, 论文强调基于学习的系统能够通过检测这些区域并将它们从最终结果中排除,从而生成高质量的HDR图像。
本文三大贡献:
文章主要内容:
一.整个HDR重建流程和主要思想
二. 数据集
我们通过提出一种创建一组具有运动的LDR图像及其对应的地面真值图像的方法来解决这个问题,具体地说,我们使用从静态场景中捕获的三张带括号的曝光图像生成ground truth HDR图像。然后,我们捕捉另一组三个包围的曝光图像的同一场景的运动。最后,我们用静态图像代替动态图像中的中等曝光图像。我们用这种方法创建了一个包含74个训练场景的数据集,并通过数据扩充对其进行了扩展。
其样本制作过程值得低级图像处理任务借鉴。我们要求受试者保持静止,在三脚架上捕捉三个曝光包围图像,然后将它们组合起来生成地面真值图像。我们还要求受试者移动并捕捉另一组曝光包围图像。我们通过从这个动态集合中获取高曝光和低曝光的图像,以及从静态集合中获取中曝光的图像来构建我们的输入集合。采用这种数据集可以学习融合具有前景运动的场景图像。
我们以原始格式捕获了所有的图像,使用佳能EOS-5D Mark III相机进行获取,分辨率为5760×3840。减少在静态设置中可能的偏差,我们downsampled图像(包括动态集)的分辨率为1500×1500。为了保证训练集的多样性,我们拍摄了由两个或者三个停顿的包围曝光图像。在采集数据的过程中,我们仍然不得不放弃其中四分之一的场景,主要是因为它们包含了令人无法接受的动作(树叶或者人物)。真值融合方法:Debevec and Malik [1997]。
该论文利用Deep High Dynamic Range Imaging of Dynamic Scenes提供的数据集设计了一个端到端的HDR重建网络,该论文认为网络也可以具有对齐功能,因此只是简单地采用单映射将输入图像进行背景对齐。然后直接输入三张LDR图像,输出HDR图像。
对齐问题涉及到前景运动和背景运动,即全局运动和局部运动,而且这些运动也是不可避免的,而全局运动的问题通过一些变换可以解决,局部运动则不好解决。因此解决这个问题的许多现有解决方案都倾向于在最终的HDR映像中引入工件或重影,或仅将未对齐区域中的像素作为离群值剔除,未能合并未对齐的HDR内容。
该论文将HDR成像问题表述为图像转换问题。框架本质上是一个对称的编码器-解码器架构,有两个变体,Unet和ResNet。
整个操作流程:
原模型的反卷积不行,存在马赛克问题,数据集制作:SIGGRAPH17_HDR_Deep High Dynamic Range Imaging of Dynamic Scenes。可以考虑采用亚像素进行上采样。
该网络结构可以扩充到更多输入图像情况。
论文最后提到:虽然该论文的优势很明显,但这还不是一个完美的解决方案。他们也观察到用最小输入LDR恢复大量饱和区域的挑战。今后,我他们努力结合高级知识来促进这种恢复,并设计一种更强大的解决方案。
提出了一种新的融合静态多曝光图像的深度学习体系结构。主要观点就是人工特征不如深度学习的特征。同时提到MEF领域没有相应的训练样本。因此作者通过提出一种无监督的深学习方法来避免需要真值图像。即无参考质量度量作为损失函数,该模型融合了从每幅图像中提取的一组常见的低层特征,从而产生无人工的、令人愉悦的结果。同时作者设计了一个新的基准数据集,可用于比较各种MEF方法。
作者采用CNN融合Y通道,这是因为图像的结构细节存在于亮度通道中,亮度通道的亮度变化比色度通道更明显。关于特征的融合操作,作者采用加法(均值,max等操作供选)。
SSIM: 结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。而在实际应用中,一般采用高斯函数计算图像的均值、方差以及协方差,而不是采用遍历像素点的方式,以换来更高的效率。需要参考图;MEF-SSIM基于结构相似度指标度量(SSIM)框架设计的,不需要参考图,直接基于输入图与融合图之间。
数据集:没有真值,Empa HDR Image Database,另外作者自己设计了50组图像,
作者测试了一种基于CNN的有监督的方法,真值来自Image fusion with guided filtering和Exposure fusion。并对比了损失函数的选择L1 L2 SSIM。“1损失”的结果比“2损失”的结果更清晰,但它在边缘有晕轮效应。与“1”和“2”不同的是,经过SSIM函数训练的CNN的结果既清晰又无人工痕迹。Application to MultiFocus Fusion
该网络重点放在网络设计上,设计了三种不同网络分别获取图像的高频细节,中等细节,和整体轮廓信息。另外就是作者认为网络中的上采样和降采样会导致结构出现各种artifact,例如色块,马赛克等问题。因此其中两个网络不存在将采用和上采样操作。
整个框架的三个分支是局部分支、扩展分支和全局分支。每个分支本身就是一个接受RGB的CNN,LDR图像作为输入。这三个分支中的每一个都负责一个特定的方面,本地分支处理本地细节,维护和扩展高频细节,扩展分支处理中级细节,学习关于较大像素邻域的信息,全局分支负责更高级别的图像范围的特性,通过学习输入的全局上下文提供总体信息。这样设计体系结构旨在避免对下采样特征进行上采样,这样是为了减少马赛克或者光晕artifact。例自动编码器架构。
下面分别解释三个分支:
损失函数采用L1而不是L2,L2会导致结果模糊,为了保证每个像素的RGB向量的颜色正确性,增加了额外的余弦相似项。余弦相似度通过比较两个向量之间的夹角来度量两个向量之间的距离,而不考虑大小。
这项工作的主要贡献:
单张LDR重建出HDR,在本文中,作者再回顾了图像的形成过程,发现这些区域中缺失的细节都存在于相应的高动态范围内(HDR)数据 ,也就是再进行tonemap之前,因为本事获得数据是RAW数据,前期处理时,都是高动态范围了,每一个像素可能为10bit甚至更多,因为要显示在显示器上,被tonemapping,范围被压缩到8bit了,因此作者觉得可以先将LDR图像转到HDR域图像,然后再进行tonemapping,传统方法中要获得HDR域图像,一般基于相机相应函数,一般用伽马函数来建立模型,这里作者试图用两个U-net网络来学习出相机相应函数和tonemap操作。
单张图像重建HDR,基于学习,单张图像生成曝光包围的图像序列,然后进行融合得到HDR图像,该方法利用三维反卷积网络,通过学习曝光增加或减少时,像素值的相对变化,不仅可以在不引入可见噪声的情况下再现自然色调,而且可以再现饱和像素的颜色。ground-truth HDR images 。
作者试图训练出一个网络,当输入一张LDR图像时,其可以输出不同曝光的图像,然后这些不同曝光的图像到达曝光包围的效果,再进行常规的曝光融合得到HDR图像, 融合采用Debc,Mertens。各种Tonemapped,作者的目标是学习.hdr 格式的图像,因此重点是训练出这么个网络。
图像的曝光理论可以再HDR域进行修改,因为在HDR域中,图像的像素值跟光照强度呈线性关系,因此很多人研究相机相应函数CRF,因为通过CRF映射,可以将LDR域映射到HDR域,那么如何选择何使的CRF函数(200多种),作者通过聚类得到了能代表大众的CRF函数,然后基于这5种CRF来训练网络。得到一个可以产生多帧曝光的网络。(因为本事输入只有一张图像,单张图像求CRF的方法确实也有,但是理论上不如多帧求CRF,作者这个网络没有验证,但愿不错)。