ARGAN(attentive recurrent generative adversarial network)细心的递归生成对抗网络???
shadow attention detection 阴影关注检测
attention map 注意图,表示图像中的阴影区域
illumination光照
inference 推理
modify修改
manipulation操作
incorporate结合
regression回归,退化
implementation实现
product operation乘法运算
本文提出ARGAN用于检测和去除图像阴影。
生成器由多个渐进步骤组成,每一步,阴影检测器用于生成attention map。有了attention map,(由阴影去除编码器产生的)negative residual将恢复这个阴影区域,变亮或者阴影消失。
分辨器分辨最后一步的输出图像是真/假。
ARGAN适于半监督训练,充分利用了无监督数据。
在四个公共数据集上的实验恒明了我们的ARGAN的鲁棒性(检测简单或者复杂的阴影),产生更真实的阴影去除结果。他优于其他先进方法,尤其是在阴影区域恢复的细节。
阴影形成与光照、物体材料、场景几何相互作用有关。影子检测有很多用处,有用。所以检测并去除阴影有必要。
目前有两类方法。一种是基于先验知识的传统方法,但是不能处理复杂的情况。另一种是深度学习方法,依赖监督数据。
本文提出ARGAN方法。生成器通过多步,实现检测并去除阴影。分辨器辨别真假。生成器包括检测器(生成map)和编码器(remove shadow)。
多步方法是因为直觉感觉多步更容易检测和去除,想到用循环/递归单元。采用了LSTM。
采用了对抗训练。
采用了半监督学习策略,充分利用网上很多的无监督图片。
创新点为:
1.采用了对抗训练优化生成器中的阴影检测器和编码器。
2.生成器是逐步的。
3.半监督策略,能利用很多图片,增强鲁棒性。
有四类相关工作。1影子检测。2影子去除。3GAN。4注意机制。
1影子检测有传统方法和深度学习方法,列举了四个。但是他们不能处理复杂情况。
2阴影去除方法有很多基于梯度域操作的、光照、颜色变换、深度信息的等。深度学习方法列举了3种。我们的方法与[53]GAN不同,我们是逐步的。
3GAN及其变体用于解决很多问题:。。。和他们相比,我们的不是一步完成,我们逐步的。
4注意机制,定义:根据每个元素的重要性评分对序列数据进行编码。应用列举。我们不是汇聚所有的特征信息,而是循环逐步的。
(为啥每个最后都重复这个)
ARGAN寻找有影子和没有影子的图像映射关系,包括生成器和分辨器。生成阶段级联关系。分辨阶段分辨器用半监督策略对最终的生成输出进行编码。??
下面讨论生成网络、辨别网络、损失函数和实现细节。
生成器N步,每步都有一个阴影探测器和编码器。
Shadow attention detector
结合注意机制,选择我们想让网络观察的,定位阴影并让编码器关注这个区域。
LSTM引入循环单元,能充分利用过去步骤中的立即输出,生成attention map,作为下面编码器的先验。
探测器设计为10个卷积层,带BN和LRelu,提取特征。
卷积的LSTM单元预测阴影区域。
卷积层生成attention map
N个探测器同样结构。
attention map是0~1之间的一个矩阵,不是二值。表明这个地方阴影的可能性。
Shadow removal encoder
去除阴影参考负残差idea,设计了编码器。结合阴影图像和map生成负残差,用于去阴影。
先是8个Conv+BN+LRelu提取特征,再deConv+BN+LRelu生成带有特征的图像。
之后2个Conv+BN+LRelu提取特征图,sigmoid激励函数转换特征图。
最后通过乘法运算,获得负残差。之后加法去阴影。
判别网路简单的二分类网络。
值得注意的是,在阴影数据集中可能会有一些阴影场景没有。为了解决这个问题,在[47]的启发下,我们将半监督学习策略应用到我们的网络中。在训练过程中,我们使用不带ground-truth的阴影图像作为非监督数据。
对于每个训练过程,我们也输入一个无监督的数据到生成器,并生成一个无阴影的图像。鉴别器鉴别生成的图像是否是真实的。半监督策略可以提高网络的泛化能力,使生成模型具有更强的鲁棒性。(不是很懂,那个损失函数不是得有真实值吗)
损失函数来自探测器、编码器和判别器。
总损失公式 L t o t a l = L d e t + L r e m + L a d v L_{total} = L_{det} + L_{rem} + L_{adv} Ltotal=Ldet+Lrem+Ladv
探测器损失:MSE。是在影子遮罩M(无影子图和影子图比较)与输出的map,之间的MSE。
编码器损失:包括准确度损失和感知损失。
准确度损失为MSE,真值和生成的无阴影图之间的。
感知损失,用了VGG16模型提取图象特征
对抗损失:监督和半监督不一样。监督的就是普通的,半监督多了一项。
实验环境配置,超参数配置等。