论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures

Kalantari N K, Ramamoorthi R. Deep HDR Video from Sequences with Alternating Exposures[C]//Computer Graphics Forum. 2019, 38(2): 193-205.

 

摘要:

在本文中,提出了一种基于学习的方法来,我们使用两个顺序卷积神经网络(CNN)对整个HDR视频重建过程进行建模。第一步,我们使用网络专门为该应用设计了一个网络,通过估算相邻帧之间的光流,将它们与当前帧对齐。然后,我们使用anotherCNN组合对齐的图像和当前图像,以生成最终的HDR帧。我们通过最小化在一组训练场景上重建的和真实的HDR图像之间的误差来执行端到端训练。我们从现有的HDR视频数据集中综合生成训练数据,并使用一种简单的方法来模拟标准数码相机的缺陷。实验结果表明,我们的方法可以产生高质量的HDR视频,而且对于有两个或三个可选曝光的序列,此方法比现有的SOTA方法快一个数量级.

 

本文的方法启发来自于[Kalantari and Ramamoorthi],  将视频问题分为两步 对齐和HDR合并, 使用光流法[Liu09]对齐, 使用cnn 合并.

但是由于使用了基于优化的光学流方法进行对准速度慢,而且,现有的光流方法并未针对产生高质量HDR video进行优化,因此, 我们建议通过使用两个顺序的CNN对对准和HDR合并组件进行建模来解决这些问题(提出了两个网络,光流预测网络以及合并网络,从而实现HDR视频的生成。),并通过最小化估计的HDR帧与地面真实HDR帧之间的误差,以端到端的方式训练两个网络. 

总结贡献:

•我们提出了第一种深度学习方法,该方法可以通过一系列交替曝光来制作HDRvideo。我们的方法是实用的,可以产生高质量的结果,并且比当前技术快50到110倍(表4)。

•我们提出了一种专门为HDR视频重建应用设计的流网络,并且其性能比现有的非学习和基于学习的光流方法更好。

•本文对KALANTARI的合并网络的输入和结构进行修改,从而极高的提高了质量。


论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures_第1张图片论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures_第2张图片

本文的目的是通过交替的曝光度的视频来合成HDR视频,并将两个曝光度扩展为三个曝光度。

要生成HDR帧,\large H_i,我们需要使用具有不同曝光量(\large Z_{i-1}\large Z_{i+1})的相邻帧在帧i(参考)处重建丢失的内容.  已有的方法慢[KSB∗13, LLM17], 

 

3.1 Preprocessing

为了减少处理的复杂性,首先,通过相似变换(旋转、平移、缩放)来使得相邻帧全局对齐到参考帧。通过在参考图像中找到对应的角点特征并使用RANSAC方法从计算的对应关系中找到该相似性模型。此外,我们用伽玛曲线替换了输入图像的原始相机响应函数(CRF). 具体做法: 使用逆CRF()转换所有帧到线性HDR域\large \widetilde{I}_i = f^{-1}(\widetilde{Z}_i)/t_i  (ti是帧i的曝光时间), 然后使用gamma曲线将图片从HDR 转换到LDR域: \large l_i(\widetilde{I}_i)

\large Z_i = l_i(\widetilde{I}_i) = clip[(\widetilde{I}_it_i)^{1/\gamma}] , 其中 clip 函数是保证输出在[0, 1]范围, \large \gamma = 2.2

预处理过程是全局对齐图像 \large \widetilde{Z}_{i-1}, \widetilde{Z}_{i+1}, \widetilde{Z}_{i}, 使用gamma矫正得到\large Z_{i-1} , Z_{i} , Z_{i+1}

 

网络结构:

论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures_第3张图片

3.2 Flow Network

首先通过全局对齐获得输入图片\large Z_{i-1} , Z_{i} , Z_{i+1} (全局对齐的),光流网络的目的是解决全局对齐所产生的非刚性移动、视差及潜在的不确定性. 

尽管有强大的非学习光流技术[Liu09,XJM12,RWHS15,HLS17],但出于两个原因,使用CNN对光流估算过程进行建模。首先,CNN效率高并且可以在GPU上实现,因此,它们比基于非学习优化的光流方法快得多。其次,光流估算只是我们系统的一个组成部分,其总体目标是产生高质量的HDR视频。通过以端到端的方式训练我们的系统,可以优化光流估算,以最大程度地提高HDR video的质量。因此,与现有的光流估算技术相比,我们的光流估算网络更适合HDR视频重建应用。

由于相邻帧的曝光度不同,需要调整参考图片的曝光度,来匹配相邻帧\large g_i(Z_i) = l_{i+1}(h(Z_i)), 函数h 是将图像Zi从LDR域转换到线性HDR域的函数,  \large h(Z_i) = Z_i^{\gamma} /t_i

输入{\large Z_{i-1}, g_{i+1}(Z_i), Z_{i+1}} (9 channel), 产生输出 4 channel ( i-1 , i+1帧 到 参考帧, x和y轴方向的光流估计结果), 通过光流去形变相邻图像得到对齐的图像.

论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures_第4张图片论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures_第5张图片

我们的系统由一系列以不同分辨率工作的光流估算器CNN组成。在较大的尺度上估算的流量捕获较大的运动,并用于在较小的尺度上初始化CNN的输入,从而负责估算较小的运动, 最终将光流对齐 \large Z_{i-1}, Z_{i+1} , 得到对齐后的图像 \large Z_{i-1,i}. Z_{i+1,i} 

 

3.3.  Merge Network

该网络的目标是从对齐的图像和参考图像中生成高质量的HDR帧。由于已对齐的图像包含残差对齐伪像,因此该网络应从根本上检测出这些伪像并将其从最终的HDR图像中排除。最近,Karantari和Ramamoorthi [KR17]证明了CNN可以有效解决这一具有挑战性的问题。在这里,我们还使用CNN来从一组LDR输入生成HDR图像,但提出两个简单但必要的输入和体系结构更改,以提高结果的质量. 

输入: \large \{Z_{i-1,i}, Z_{i}, Z_{i+1,i}, Z_{i-1}, Z_{i+1}\} ( LDR和线性HDR域都作为网络的输入 ,共30 channels)

输出: 5个图像的混合权重(15 channels)

最终 HDR image  \large H_i:

\large H_i = \frac{w_1I_i+w_2I_{i-1,i} + w_3I_{i+1,i}+ w_4I_{i-1} + w_5I_{i+1}}{\sum_{k=1}^5w_k}, wk是混合权重, \large I_i= h(Z_i)是将Zi从LDR映射到线性HDR域.

 

Architecture:

论文阅读笔记---Deep HDR Video from Sequences with Alternating Exposures_第6张图片

 

4.1 loss function

HDR图像和视频通常在色调映射后显示,该过程通常会提高暗区中的像素值。因此,直接在线性HDR域中定义损耗函数会低估暗区中的误差。为了避免这个问题,我们将HDR图像转移到对数域中,

\large T_i = \frac{log(1+\mu H_i)}{log(1+ \mu)}, \quad E = ||\hat{T}_i - T_i||_1

Hi 是HDR帧范围是[0,1], u设置为5000是控制压缩率

数据集处理:

添加噪声, 0均值,方差在[10^-3, 3*10^-3]范围随机取值的高斯噪声 在低曝光的LDR图像中.

色调扰乱(tone perturbation), 通过将伽马函数独立应用于其不同的颜色通道,从而稍微干扰了参考图像的色调, 具体的\large \gamma = exp(d), d是随机选取的范围[-0.7, 0.7].

patch generation: 将图像分解成352×352的小重叠块,步幅为176, 我们的数据集中大多数patch都包含静态背景,这对于训练光流网络没有用。因此,仅当两个相邻图像的超过2000个像素的绝对差大于等于0.1才选择patch.

结果处理:

逆色调映射使用 Reinhard [RSSF02] 方法,

temporal coherency时间一致性使用[kYWS03]方法, 具体如下:

时间色调映射由全局和局部阶段组成:对于全局映射,计算平均和最大亮度,它们控制传递函数以提供良好的初始亮度映射。对数平均亮度由下式给出:

\large F_w = exp(\frac{1}{N}\sum_{x, y , i}log(\epsilon + F_i(x, y))), 其中\large \epsilon = 10^{-6}, N是像素个数, Fi 是由时间k − 1和k处的帧组成的因果时间邻域. 

 

 

 

 

 [KR17] KALANTARI N. K., RAMAMOORTHI R.: Deep high dynamic range imaging of dynamic scenes. ACM TOG 36, 4 (2017). 

[Liu09] LIU C.: Beyond Pixels: Exploring New Representations and Applications for Motion Analysis. Doctoral thesis, Massachusetts Institute of Technology, May 2009.

[KSB∗13] KALANTARI N. K., SHECHTMAN E., BARNES C., DARABI S., GOLDMAN D. B., SEN P.: Patch-based high dynamic range video. ACM TOG 32, 6 (Nov. 2013), 202:1–202:8.

[LLM17] LI Y., LEE C., MONGA V.: A maximum a posteriori estimation framework for robust high dynamic range video synthesis. IEEE Transactions on Image Processing 26, 3 (March 2017), 1143–1157. 

你可能感兴趣的:(论文笔记,HDR)