【论文阅读】ARGAN: Attentive Recurrent Generative Adversarial Network for Shadow Detection and Removal

一些名词

ARGAN(attentive recurrent generative adversarial network)细心的递归生成对抗网络???
shadow attention detection 阴影关注检测
attention map 注意图,表示图像中的阴影区域
illumination光照
inference 推理
modify修改
manipulation操作
incorporate结合
regression回归,退化
implementation实现
product operation乘法运算

摘要

本文提出ARGAN用于检测和去除图像阴影。

生成器由多个渐进步骤组成,每一步,阴影检测器用于生成attention map。有了attention map,(由阴影去除编码器产生的)negative residual将恢复这个阴影区域,变亮或者阴影消失。
分辨器分辨最后一步的输出图像是真/假。

ARGAN适于半监督训练,充分利用了无监督数据。

在四个公共数据集上的实验恒明了我们的ARGAN的鲁棒性(检测简单或者复杂的阴影),产生更真实的阴影去除结果。他优于其他先进方法,尤其是在阴影区域恢复的细节。

1Introduction

阴影形成与光照、物体材料、场景几何相互作用有关。影子检测有很多用处,有用。所以检测并去除阴影有必要。

目前有两类方法。一种是基于先验知识的传统方法,但是不能处理复杂的情况。另一种是深度学习方法,依赖监督数据。

本文提出ARGAN方法。生成器通过多步,实现检测并去除阴影。分辨器辨别真假。生成器包括检测器(生成map)和编码器(remove shadow)。

多步方法是因为直觉感觉多步更容易检测和去除,想到用循环/递归单元。采用了LSTM

采用了对抗训练

采用了半监督学习策略,充分利用网上很多的无监督图片。

创新点为:
1.采用了对抗训练优化生成器中的阴影检测器和编码器。
2.生成器是逐步的。
3.半监督策略,能利用很多图片,增强鲁棒性。

2Related Work

有四类相关工作。1影子检测。2影子去除。3GAN。4注意机制。

1影子检测有传统方法和深度学习方法,列举了四个。但是他们不能处理复杂情况。

2阴影去除方法有很多基于梯度域操作的、光照、颜色变换、深度信息的等。深度学习方法列举了3种。我们的方法与[53]GAN不同,我们是逐步的。

3GAN及其变体用于解决很多问题:。。。和他们相比,我们的不是一步完成,我们逐步的。

4注意机制,定义:根据每个元素的重要性评分对序列数据进行编码。应用列举。我们不是汇聚所有的特征信息,而是循环逐步的。
(为啥每个最后都重复这个)

3 Approach

ARGAN寻找有影子和没有影子的图像映射关系,包括生成器和分辨器。生成阶段级联关系。分辨阶段分辨器用半监督策略对最终的生成输出进行编码。??
【论文阅读】ARGAN: Attentive Recurrent Generative Adversarial Network for Shadow Detection and Removal_第1张图片
下面讨论生成网络、辨别网络、损失函数和实现细节。

3.1Generative Network

生成器N步,每步都有一个阴影探测器和编码器。

Shadow attention detector
结合注意机制,选择我们想让网络观察的,定位阴影并让编码器关注这个区域。

LSTM引入循环单元,能充分利用过去步骤中的立即输出,生成attention map,作为下面编码器的先验。

【论文阅读】ARGAN: Attentive Recurrent Generative Adversarial Network for Shadow Detection and Removal_第2张图片
探测器设计为10个卷积层,带BN和LRelu,提取特征。
卷积的LSTM单元预测阴影区域。
卷积层生成attention map

N个探测器同样结构。
attention map是0~1之间的一个矩阵,不是二值。表明这个地方阴影的可能性。

Shadow removal encoder
去除阴影参考负残差idea,设计了编码器。结合阴影图像和map生成负残差,用于去阴影。

【论文阅读】ARGAN: Attentive Recurrent Generative Adversarial Network for Shadow Detection and Removal_第3张图片
先是8个Conv+BN+LRelu提取特征,再deConv+BN+LRelu生成带有特征的图像。
之后2个Conv+BN+LRelu提取特征图,sigmoid激励函数转换特征图。
最后通过乘法运算,获得负残差。之后加法去阴影。

3.2Discriminative Network

判别网路简单的二分类网络。

【论文阅读】ARGAN: Attentive Recurrent Generative Adversarial Network for Shadow Detection and Removal_第4张图片
值得注意的是,在阴影数据集中可能会有一些阴影场景没有。为了解决这个问题,在[47]的启发下,我们将半监督学习策略应用到我们的网络中。在训练过程中,我们使用不带ground-truth的阴影图像作为非监督数据。
对于每个训练过程,我们也输入一个无监督的数据到生成器,并生成一个无阴影的图像。鉴别器鉴别生成的图像是否是真实的。半监督策略可以提高网络的泛化能力,使生成模型具有更强的鲁棒性。(不是很懂,那个损失函数不是得有真实值吗)

3.3Loss functions

损失函数来自探测器、编码器和判别器。
总损失公式 L t o t a l = L d e t + L r e m + L a d v L_{total} = L_{det} + L_{rem} + L_{adv} Ltotal=Ldet+Lrem+Ladv

探测器损失:MSE。是在影子遮罩M(无影子图和影子图比较)与输出的map,之间的MSE。

编码器损失:包括准确度损失和感知损失。
准确度损失为MSE,真值和生成的无阴影图之间的。
感知损失,用了VGG16模型提取图象特征

对抗损失:监督和半监督不一样。监督的就是普通的,半监督多了一项。

3.4Implementation Details

实验环境配置,超参数配置等。

你可能感兴趣的:(神经网络,深度学习,计算机视觉,人工智能)