论文阅读笔记------Deep Video Inverse Tone Mapping

Yucheng Xu, Li song, Rong Xie, Wenjun Zhang. Deep Video Inverse Tone Mapping. 2019 IEEE Fifth International Conference on Multimedia Big Data(BigMM).

摘要:

现有的逆色调映射方法将逆色调映射问题认为是从LDR域到HDR域直接转换的问题,却忽略了LDR与HDR之间的关系。而且当使用深度学习的方法对视频的帧进行转换时,将会导致时间不连续和闪烁的问题出现。本文中设计新的方法减少闪烁问题,不同于以往的工作,本文首先将LDR资源转换回近似的真实场景,并使用这些真实场景生成HDR输出。当生产HDR输出时,本文采用3D卷积网络来减少闪烁。本文还使用方法进一步分别约束HDR输出的亮度信息和颜色信息。 

LDR和HDR之间的关系是它们都是现实世界中的场景的表示,它们之间的区别在于它们的标准不同并且其制作过程也不同。
在生成LDR图像和视频的过程中,输入的亮度信息通过光电传递函数(OETF)以数字值存储,在大多数情况下,OETF可以近似地视为伽马函数[3]。 我们尝试使用OETF的反函数(另一种伽马函数)来恢复真实场景的亮度信息。但是,其他一些损失(例如量化损失)无法恢复,因此我们只能得到一些近似的真实场景。我们使用这些场景通过深度神经网络去产生HDR资源。

在生产HDR输出时,本文使用2D卷积和2D逆卷积带跳连接的结构来构建HDR 图像,3D卷积和3D逆卷积进一步限制时间一致性。

并且使用MSE和内在loss进一步限制HDR亮度和颜色信息,同时使用感知loss使输出更加真实。

本文贡献:

1.我们提供了一种解决逆色调映射问题的新方法。 我们将逆色调映射问题视为从LDR域到具有中间域的HDR域的域转换问题,即近似真实场景,因为它们都是现实世界中场景的表示。

2.我们提出了一个3D卷积网络来解决基于深度学习的视频逆色调映射问题中的时间不一致问题

模型结构:

论文阅读笔记------Deep Video Inverse Tone Mapping_第1张图片

问题定义:

目标是转换输入LDRvideo序列V_L={L_1, ..., L_m} 为没有闪烁的HDR video序列V_H={H_1, ..., H_m}

包括两个部分:首先,我们必须对输入视频的每一帧应用逆色调映射,其次是必须减少闪烁并保持时间一致性。 输入LDR视频序列是RGB颜色空间中的一组帧,而输出HDR视频序列是OpenEXR格式中的一组帧。

LDR转换回近似的真实场景V_R={R_1, ..., R_m}, 因为从真实的世界场景亮度转换到LDR图像的像素值通常是通过gamma系数f(x) = x^{\gamma}, 其中\gamma=\frac{1}{2}, 所以从LDR到真实场景的逆转换为:R_{i,c} = L^2_{i,c}, 其中L是任意输入帧,R是相关的近似的真实场景的帧,i表示第i个像素,c表示通道。

使用3D带跳链接的自动编码器在对数域产生从V_R到HDR 视频V_H的转换,并减少闪烁。具体网络结构如下:

论文阅读笔记------Deep Video Inverse Tone Mapping_第2张图片

网络的输入是整个近似真实场景序列,输出是最终HDR 视频序列。

编码器:使用3D卷积层,其中kernel size=(3, 3 ,3)【宽,高, 深度】表示使用3个相邻的帧抽取特征;stride =(1,1,1) padding=(1,1,1), 在第一帧前和最后一帧后添加额为的全0帧。

每个卷积层之后是3D批处理归一化层,激活函数是Relu。池化层使用3D max pooling(宽和高维度的stride=2, depth 维度的stride=1)

解码器:使用3D逆卷积层,kernel size=(4,4,3),stride=(2,2,1),padding=(1,1,1), 由于解码器在对数域中工作,因此将对数转换应用于从跳连接中获得的特征。 将这两个等级在通道维度上串联起来,然后将它们传递到3D卷积层以将它们组合在一起。

Bottleneck: 在编码器和解码器中间有五个残差模块

损失函数:

\lmath\mathcal{L}_(V_H, \hat{V}_H) = \mathcal(L)_{MSE}(V_H, \hat{V}_H) + \alpha\mathcal{L}_{IR}(V_H, \hat{V}_H)+\beta \mathcal{L}_{VGG}(V_H, \hat{V}_H)

内在损失: \mathcal{L}_{IR} = \frac{1}{N}\sum_i^n \Big[\big | I_{ill,i}^{V_H}-I_{ill,i}^{\hat{V}_H} \big|^2 +\big| I_{ref,i}^{V_H}-I_{ref,i}^{\hat{V}_H}\big|^2\Big]    限制亮度和颜色信息

图片可分解为两个内在图片:illumination image I_{ill} 和reflectance image I_{ref}

实验中使用高斯低通滤波器在对数域中近似照度图像

感知损失:\mathcal{L}_{VGG}=\frac{1}{N}\sum_i^n \Big[ \big| \phi_4(H_i) -\phi_4(\hat{H}_i) \big|^2 \Big]

\mathcal{L}_{VGG}从VGG-19网络(使用ImageNet预训练)的第四个池化层的输出中获得。

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(HDR,论文笔记)