【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR

ICCV2019的超分辨文章
文章链接
matlab代码链接

本文解决超高清视频的超分辨问题。具体描述就是LR SDR-> HR HDR。
HDR:高动态范围图像,相比于普通图像,能够提供更多的动态范围和图像细节。
LDR:其实就是普通的图像,比如jpg等等。

本文提出的方法联合super-resolution(SR)和inverse tone-mapping(ITM),恢复高频细节for SR, 恢复局部对比度for ITM。
【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第1张图片
先放一张效果图。从图中确实可以看到本文的方法恢复出来的HDR HR图像对比度和分辨率细节都比其他方法要好。

介绍

现在的电视都提供了超高清的播放,比如4K甚至是8K,以及HDR的性能。但是现在的数字电视和网络电视服务还是只提供了高清和SDR的视频。本文提出的SR-ITM框架想要解决从SDR LR视频图像转换位HDR HR视频的问题,从而减少网络传输的带宽,减少设备的负担。
困难

  1. LR图像因为分辨率降低高频细节会丢失
  2. 在SDR图像中,与HDR图像相比,对比度和局部细节的局部变化会随着信号范围(幅值)的减小而丢失。

所以主要目标是恢复细节和对比度,增加空间分辨率和信号幅值。
本文方法Deep SR-ITM: 输入的图像信号被分解为进入到 基础层 the base 和细节层 detail layers。这两层有着分离开来的特征提取部分。这使得网络在细节层关注于重建细节。为了增强局部对比度,卷积操作在这里是不适用的因为它是空间平等的(滤波器用滑窗的方法作用于每个像素)。因此,我们设计了一个调制模块,这些模块执行空间变化(特定于像素位置)的乘法运算来调制局部强度。所产生的调制映射是image-specific的,不像卷积核对于每幅图像来说是固定的。
我们的问题和前面的ITM的方法功能上是不同的。后者旨在预测线性域中图像的亮度,即场景的物理亮度,通常是 i n in in c d / m 2 cd/m^2 cd/m2cd是candela,发光强度的单位,后面就是每平方米的意思)。 我们的网络可以直接以像素域的HDR显示格式预测HR HDR图像。因此,颜色色域必须从BT.709扩展到BT.2020,每位深度从8 bits/pixel增加至10 bits/pixel。图2展示了我们的方法和传统的预测亮度的ITM的区别。本文训练和测试都采用4K HDR的视频。
【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第2张图片

提出的方法细节

所恢复出的图像的HDR格式为BT.2020和PQ-OETF。
【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第3张图片

输入分解

输入的LR SDR 图像 I I I首先通过一个guided filter(一个边缘保留的低通滤波器)被分解到基础层 I b I_b Ib和细节层 I d I_d Id I b I_b Ib是由 I I I通过滤波器得到,而 I d I_d Id则是简单采用除法:
在这里插入图片描述
I b I_b Ib主要包含一个模糊化后的彩色图像,一些低频的信息。 I d I_d Id则主要是无色的,但是富于高频信息(边缘,纹理等)。
输入两个层的时候,concat上原来的 I I I
在这里插入图片描述
则上面的基础层主要是进行颜色转换和扩大幅值,下面的细节层主要是进行高频信息的恢复。

Residual skip modulation blocks

Modulation(调制) 前面提到,卷积操作是空间平等的,且是图像均等的(对每幅图像相同),限制了局部对比度增强的性能。因此本文提出了一个空间变化且图像自适应的调制方法,通过逐像素乘法,帮助网络建模更加复杂的映射。有点像attention block,在SR-ITM中,位置独一的乘法操作帮助逐像素调制图像信号。
Residual blocks. 我们设计了四种不同的residual, skip,modulation块的组合:ResBlock,ResModBlock,ResSkipBlock和ResSkipModBlock,如图3所示。
ResBlock(橙色框):
在这里插入图片描述
R L RL RL表示ReLU。

ResModBlock (绿色框):
首先,它需要基础层得到的共享的modulation 特征 S M F b SMF_b SMFb
在这里插入图片描述
其次, i i i-th ResModBlock的输出表示为:
在这里插入图片描述
这里的 C R B ( x ) C_{RB}(x) CRB(x)应该是前面那个块得到的特征,原文没有提及
上面基础层最终的输出为:
在这里插入图片描述
F E b FE_b FEb可以由有选择地执行ResBlock和ResModBlock得到。

对于细节层支路,skip components被用来帮助信息的流动。
ResSkipBlock(黄色框)
在这里插入图片描述
其中一部分输入是由 R M B i RMB_i RMBi得到的。 D R DR DR是一个dimension reduction层,用来降低维度的,1×1卷积。[ ]表示concatenation。
最后,ResSkipModBlock
在这里插入图片描述
下面细节层最后的输出为
在这里插入图片描述

融合和合成

Deep SR-ITM的最后一部分包含基础层和细节层输出的融合以及产生HR HDR 输出。仍旧用到了ResBlocks。ResBlock的输入为:
在这里插入图片描述
最后 n n n-th的ResBlock的输出为:
在这里插入图片描述
最后的HR HDR预测为:
在这里插入图片描述

Toy network

我们设计了一个toy network(Deep SR-ITM的简化版本)来进一步分析输入分解的影响以及评估不同种类调制的影响。toy network应该是简单的,为了更有效地实验,同时也应该能够代表原始地Deep SR-ITM网络,以至于在toy network上的实验结果能够反映Deep SR-ITM。toy network的结构如图4所示:
【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第4张图片

实验

实现细节

所有卷积核的通道数为64,除了pixel shuffle之前的层的通道数为256。输出层为3通道。
网络都是在YUV三通道上训练和测试的。网络结构中, m = 3 m=3 m=3 n = 10 n=10 n=10。4倍超分采用两个pix shufflers。其余实验未具体提及的都是两倍超分。
训练细节具体可以看论文
HDR预转换为SDR直接采用了youtube,看起来更加自然。
【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第5张图片

输入分解的实验

我们先是分析了输入分解的有效性。feature extraction passes从1到3:
【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第6张图片

调制

输入组合

【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第7张图片

调制图的可视化

【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第8张图片

消融实验

【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第9张图片

定量实验

【ICCV19 超分辨】Deep SR-ITM: Joint Learning of Super-Resolution and Inverse Tone-Mapping for 4K UHD HDR_第10张图片

定性比较

你可能感兴趣的:(论文解析,ICCV2019,超分辨率)