这学期上图像识别课,老师提到怎么读论文,其中两点就是:
1、将每篇论文所用到的方法和创新点总结出来,看作者的方法或者创新能不能用到其他地方,这样一篇论文就出来了。
2、去读作者的源码,因为有些东西作者论文并不会细讲,在代码中才会体会得更深刻。
鉴于老师期末给我打了高分,再加上我也比较赞同老师得观点,因此打算自己总结一下读过的论文,由于本人研究方向是GAN,所以GAN会偏多一点。
以下言论仅为个人观点,如果相同,那纯属巧合,如果不同,那太正常不过了~欢迎大家讨论
1、生成器捕捉数据集得分布,鉴别器判断输入是来自数据集还是生成器。最终生成器拟合真实数据集得分布,鉴别器输出为1/2(表示无法判断数据来源)。
2、生成器和鉴别器都是用多层感知机做的。生成器输入得是随机噪声,鉴别器输出是一个标量。生成器用了relu和sigmoid,鉴别器用了maxout和dropout。maxout现在已被弃用,但是当时maxout和dropout经常被一起使用。
3、
这句话我不太明白是什么意思,我猜测作者想说直接优化D让其达到最优再优化G的话容易造成过拟合。因此要D和G交替训练,训练K次鉴别器再训练1次生成器能让鉴别器接近最优解。换句话说只要生成器G变化的足够慢,鉴别器D就会长时间维持在最优解附近。
4、
作者认为最小化log(1-D(G(z)))在刚开始训练得时候并不能给G提供很好的梯度(logD(x)的值不由G决定所以不用考虑),因为一开始D(G(z))基本为0,log(1-x)在0点的导数很小,所以G更新很慢,为了解决这个问题作者将最小化log(1-D(G(z)))改为了最大化D(G(z)),这样当D(G(z))最开始接近0的时候logx的导数就足够大,可以为G提供足够的梯度。
5、
作者取k=1。先训练鉴别器再训练生成器。个人认为之所以要先训练D是因为只有D先达到最优解D*训练的G才能达到Pg=Pdata。
6、
作者证明了这个式子是可以解出来的,这是为了证明作者提出的GAN模型是可行的
当判别器达到最优解
时,生成器的最优解就是Pg=Pdata时,此时结果为-log4。
具体证明可以去B站看李宏毅老师的GAN视频
7、
代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/GAN
(1)用了GAN和MLP来生成Mnist,可以看到GAN确实要清晰很多,而MLP生成的很模糊,这是因为MLP的loss会导致平均的效果。
(2)更新鉴别器的时候不需要计算生成器的梯度,因此可以加个detach,当然不加也没事
(3)更新鉴别器时用鉴别器的优化器,更新生成器时用生成器的优化器,不要搞错了。
1、之前的GAN无法控制输出什么图片,因此作者想通过往输入加入额外的信息来控制模型的输出。
2、就是将额外信息y也作为生成器和鉴别器的输入。y可以是类别标签也可以是其他形式的数据。
3、在Minist数据集上,作者作者将label的one-hot编码与100维均与分布的随机噪声concat后作为生成器的输入,输出为784维(28*18)
4、
代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/blob/main/CGAN/README.md
参考了
(https://blog.csdn.net/qq_37937847/article/details/114443651?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0.no_search_link&spm=1001.2101.3001.4242.1&utm_relevant_index=3)
(1)最主要的就是把标签变成one-hot编码然后与输入进行拼接
(2)原作者还有些代码写法可以借鉴一下
定义数据类型的代码
保存图片的代码,用的from torchvision.utils import save_image
结果,跑了20轮
1、这篇文章的核心是通过对网络结构做出一定的限制要求,来使得GAN训练更加稳定和提高生成图片的质量。
2、作者发现把有监督训练中常用的CNN网络结构套用到GAN上效果并不好,因此作者在进行大量实验后提出了以下设计要求来让模型训练更加稳定以及提高生成图像质量
(1)使用全卷积网络,用带stride(步长)卷积代替maxpool(我的理解就是加大卷积的步长11改为22)。这样就能让生成器和鉴别器自己去学习下采样的方式,而不是暴力的直接用maxpool下采样。
(2)使用卷积代替全连接。作者认为有人使用全局平均池化代替全连接虽然提高了模型的稳定性,但会降低训练的收敛速度。
全连接参数多训练慢不说,还容易导致过拟合,所以不太推荐。
(3)使用batchnorm,对每一层的输入都归一化为均值为0方差为1。作者说这可以使训练更加稳定,有助于降低因初始化的问题所造成的训练不好,也缓解了深层网络中的梯度溢出问题,防止模式崩塌。但是作者又说将BN作用于每一层上会造成训练的不稳定,因此在生成器最后一层和鉴别器输入层没有用BN。
由于深度学习的神经网络层数多,每一层都会使得输出数据的分布发送变化,随着层数的增加网络的整体偏差会越来越大。BN的目标是为了解决这一问题,通过对每一层的输入进行归一化处理,能有效使得数据服从某个固定的数据分布。
(4)生成器中,除去最后一层使用Tanh之外,每一层都使用ReLU来激活。这样可以让模型更快的学习图像的颜色空间分布。在判别器中用LeakyReLU ,能提高生成高分辨率模型的效果。
Sigmoid的缺点:当输入很大或很小时,函数梯度几乎为0,不利于反向传播。Sigmoid的均值不是0,这使得网络训练过程中只会产生全正或全负的反馈。
Tanh解决了Sigmoid函数均值不为0的问题,实践中通常Tanh函数优于Sigmoid函数。因此作者最后一层用Tanh而不用Sigmoid。
ReLU能比Sigmoid和Tanh更容易使得网络收敛。但是ReLU可能导致某些神经元永远无法更新,因此LeakyReLU能够缓解这种梯度消失的问题。但为什么只在鉴别器中用呢?我就不知道了~
总结:
3、训练参数
5、作者通过慢慢改变生成器的输入向量值来探索输入是如何影响图像生成的,并且还能判断网络是真的学到了语义信息还是只是单纯的记住了图像。
可以看到作者慢慢改变输入后,生成的图像逐渐有了窗子,因此这证明了网络是真的学到了语义信息,并不是只是单纯的记住了图像。因为如果改变一点点输入图像就变化很大或完全没有什么变化就可以说明网络只是单纯的记住了图像和输入的映射关系,而没有学习到分布特征。
6、作者可视化鉴别器学习的特征,证明了鉴别器学习到了层次特征。这个层次特征是不是就是高级语义信息哦?
7、作者用逻辑回归分类去找出生成器中与窗子有关的卷积核并将其权重置0,然后发现窗子都消失了
这表面生成器在分离场景表示和对象表示方面做得很好。至于为什么我也不知道~
8、有研究表面"国王"向量-"男人"向量+"女人"向量="王后"向量,于是作者也做了相同的实验
"开心"女人-"无表情"女人+"无表情"男人="开心"男人
注意,作者的生成器输入向量是三个向量的平均了。这是为了综合掉输入向量的一些噪声,不这样做就会造成以下结果
9、作者把输入向量慢慢变成另一个输入向量发现对应图片也会逐渐慢慢变化,这证明了CGAN的可靠性。
10、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/DCGAN
结果:
我感觉从最终结果上来看使用ReLU和使用LeakyReLU并没有特别大的差别。使用IN比使用BN生成的头发纹理更加清晰,所以个人感觉还是因情况而定吧,也有人说GAN中IN好于BN。
感觉还是to(device)这种用法比较好
原来[100, 1, 1]的向量也能反卷积啊~
1、这篇文章作者提出了一些方法可以提高生成图像的质量。
2、作者说训练GAN就是对抗的两个玩家之间寻找纳什均衡,但之前GAN使用梯度下降来最小化损失函数并不是寻找使G和D的纳什均衡。因为当D去最小化其损失J(D)时会增加G的损失J(G),而G去最小化其损失J(G)会增加D的损失J(D),从而使模型无法收敛。
作者这里举了一个例子,假如一个是控制x来最小化xy,一个是控制y来最小化-xy。控制x来最小化xy的会让x越小越好,这是就会让-xy变大。而控制y来最小化-xy的会让y越大越好,这时会让xy变大,这样当梯度下降稳定后并不能到达最佳点(x=0,y=0)。
3、作者提出了特征匹配损失来提高GAN训练的稳定性。生成器在优化对抗损失时还要优化特征匹配损失从防止生成器过度依赖鉴别器的输出来更新自己的参数。具体做法是让生成器生成的样本经过鉴别器各个中间层得到的特征图与真实样本经过鉴别器中间层得到的特征图越接近也好。理论依据就是:鉴别器本身就是要寻找生成样本的特征与真实样本的特征最显著差别的地方,因此作者认为这些差别是生成器值得学习的。
f(x)是鉴别器各个层的输出
4、作者提出了小批量训练鉴别器。这是为了缓解模式崩塌,因为如果batchsize为1的话,即便出现了模式崩塌,但由于鉴别器只接受一张图片为输入,并不知道生成器只输出单一的图片,所以无法指导生成器生成不一样的图片。因此作者借鉴BN的想法,想让鉴别器训练时看到多个样本。于是将鉴别器的输入xi(xi为小批量数,也就是一次输入鉴别器的样本数)经过中间层得到的特征f(xi)乘以一个张量T得到矩阵Mi,再计算各个矩阵与其他矩阵之间的L1距离并求和得到o(xi),最后再将所有o(xi)与特征f(xi)拼接在一起作为下一层的输入。
但是不同于BN,作者的小批量(Minibatch)鉴别器依然输出的是一个值,鉴别器只是把minibatch作为辅助信息。
5、作者在鉴别器和生成器的损失中加入了正则项,说是可以让梯度不容易进入稳定,能够继续向纳什均衡更新。具体我也没看明白。
6、使用标签平滑。作者认为用0.1~0.9代替0~1能使分类器降低对对抗样本的敏感性,因此作者将对于鉴别器的输出0~1的标签平滑为α~β。在应用的时候将真实数据的正样本判别为0.9和生成数据的负样本设置为0.1既可。
7、虚拟BN。作者认为BN有个缺点,即会使G生成一个batch的图片中,每张图片都有相关性,比如生成的一个batch图片中绿色比较多。为了解决这个问题,作者提出了VBN(虚拟BN)。具体过程我也不太清楚。反正会导致训练一次要进行两次正向传播,比较耗时,从而只在生成器中用。
8、对于生成图像的评价,作者除了使用人工评价(MTurk)还提出了Inception Score用来降低人力成本,并且实验证明Inception Score与人类判断高度一致,是可行的。但是作者说并不能把这个指标用来直接优化送给模型来优化,因为这样会导致生成对抗样本。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
1 、 \color{blue}{ 1、} 1、以前的方法做图像翻译都会单独的为某一功能设计损失函数,例如对图像上色设计一种损失函数,为标签到图像又设计一种损失函数,这样就很麻烦,因此作者想要用一种统一的框架去处理这一类从图像到图像的问题,因此提出了Pix2Pix。
2 、 \color{blue}{2、} 2、 作者认为CNN的任务是最小化我们提出的损失,但是前提是我们要清楚的知道我们提出的损失到底是干嘛的,其实作者想要表达的就是如果我们想要做边缘检测或者还原真实图像,那么我们最小化的损失函数是不一样的。例如不能天真的都用欧氏距离使预测和真实标签的距离最小化,因为这样照成模糊。
3 、 \color{blue}{3、} 3、为什么GAN生成的图片不会像CNN那样模糊呢?作者认为这是因为GAN训练生成器去最小化鉴别器分清楚生成图片和真实图片之间差别的loss。生成的模糊图片将在两个网络对抗时就被修正。因此GAN具备自动适应数据分布损失的能力,就不需要额外的损失函数。
4 、 对 于 损 失 函 数 , 在 C G A N L o s s 上 加 入 了 L 1 L o s s 。 \color{red}{4、对于损失函数,在CGANLoss上加入了L1Loss。} 4、对于损失函数,在CGANLoss上加入了L1Loss。作者认为把GAN的loss与其他loss结合起来能优化最终结果,因此作者选择在生成器中加入L1Loss,之所以不用L2Loss可能是因为L1Loss比L2Loss更能避免模糊。
需要注意的是其实作者并没有像CGAN那样加入随机噪声z,这是为了让生成器产生确定的输出。
因此最终Loss变成了GANLoss+L1Loss
作者之后说了,虽然加入L1Loss/L2Loss都会使得生成图像变得模糊,但是加入它们能准确地捕捉图像的低频,因此还是用了L1Loss。这里我们可以想到既然低频信息是L1Loss来捕捉,那么高频信息自然就是GANLoss来捕捉了。
5 、 对 于 生 成 器 网 络 结 构 , 使 用 了 U n e t 。 \color{red}{5、对于生成器网络结构,使用了Unet。} 5、对于生成器网络结构,使用了Unet。作者认为输入和输出图像表面上是不同的但是其内在结构是相同的,例如图片夏天到冬天转换,其实景色是不变的,山还是山,树还是树,只不过把草地变为的雪地,即整幅图的框架结构没变。因此作者采用了Unet结构而不是编解码器结构,Unet结构相对于编解码器结构唯一多的就是跳跃连接。之所以要加跳跃连接是因为作者认为输入图片和输出图片之间有大量的底层信息是需要共享的,例如说颜色和边缘(也就是上面说的结构信息),而这些信息最好能通过跳跃连接直接传到上采样层,避免了下采样时的信息丢失。
5 、 对 于 鉴 别 器 网 络 结 构 , 使 用 了 P a t c h G A N 。 \color{red}{5、对于鉴别器网络结构,使用了PatchGAN。} 5、对于鉴别器网络结构,使用了PatchGAN。前面说了作者加入L1Loss是为了保留住低频信息,那么高频信息自然而然就要用GANLoss来保留了,因此作者将鉴别器设计层PatchGAN的结构。其输出为一个N*N的块。这样的好处是能减少参数、使模型运行更快、能应用于任意大小的图片,并且最终结构还不差。
6、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/Pix2Pix
参考了官方代码
时间原因只复现了模型和训练流程
作者生成器下采样用的是LeakyReLU,而上采样用的是ReLU,并且上采样还加了Dropout,归一化用的是BN,最后输出为Tanh
跳跃连接前的通道拼接是按NCHW的C维度进行拼接
鉴别器,输入是生成器的输入和真实/伪造图片,所以为6维,输出为1维的patch
训练,由于鉴别器输入用了detach,所以训练生成器时还要重新forward一次鉴别器
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
1、之前的基于CGAN的网络如Pix2Pix并不能产生高清晰度的图像,因此作者提出了在Pix2Pix基础上提出了Pix2PixHD来解决这个问题。
2 、 L 1 L o s s 会 使 得 图 片 模 糊 , 而 G A N L o s s 不 会 。 \color{blue}{ 2、L1Loss会使得图片模糊,而GANLoss不会。} 2、L1Loss会使得图片模糊,而GANLoss不会。这是因为鉴别器会学习一个可训练loss函数以及自动的去适应生成图片和真实图片在目标域之间的不同。
3 、 使 用 粗 到 细 的 生 成 器 。 \color{red}{3、使用粗到细的生成器。} 3、使用粗到细的生成器。 G1作为全局生成器,G2作为局部增强器。
全局生成器器由下采样模块+残差模块+上采样模块构成,其输入是1024*512,输出也是1024 * 512。
局部增强器同样也是由下采样模块+残差模块+上采样模块构成,不同的是,其上采样模块的输入是其残差模块输出和全局生成器的输出的拼接。输入输出都是2048 * 1024。
4 、 使 用 多 尺 度 鉴 别 器 。 \color{red}{4、使用多尺度鉴别器。} 4、使用多尺度鉴别器。 为了增强鉴别器区分真实图片和伪造图片的能力,往往都会设计更大的感受野给鉴别器,但是其结果就是导致内存消耗大并且网络容易过拟合。为了解决这个问题,作者使用了多尺度鉴别器。就是使用三个一模一样的鉴别器但是输入的图片尺寸不一样,输入小尺寸的图片就相当于变相增加了鉴别器的感受野大小。这样输入低分辨率图片的鉴别器具有更大的感受野,就可以保证生成图片的全局一致性。输入为高分辨率图片的鉴别器具有较小的感受野,可以促进生成图像细节方面的合成。作者还说,如果不使用多尺度鉴别器容易造成模式崩塌。
5 、 在 多 尺 度 鉴 别 器 上 使 用 特 征 匹 配 损 失 。 \color{red}{5、在多尺度鉴别器上使用特征匹配损失。} 5、在多尺度鉴别器上使用特征匹配损失。 就是让生成图片和真实图片通过鉴别器某些层后得到的特征图越接近越好,这样能让生成的图片更自然,并且提高生成器训练的稳定性。
6 、 使 用 实 例 映 射 。 \color{red}{6、使用实例映射。} 6、使用实例映射。 将label的边界图像与label按通道维度拼接一并送人生成器能使生成的图片有更加清晰的边界。
7 、 使 用 感 受 野 损 失 。 \color{red}{7、使用感受野损失。} 7、使用感受野损失。与特征匹配损失差不多,只不过是让生成图片和真实图片通过预训练的VGG19,让后取出某些层的特征图让他们做L1Loss。
8、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/Pix2PixHD
参考了作者的代码
时间原因只复现了模型和训练流程
作者默认只使用了全局生成器,下采样+残差块+上采样,注意残差块用的是相加,不是通道拼接
鉴别器主要就是要把各个模块分开定义,这是为了提取中间的特征图用于后面的loss计算,forward函数也是返回的一个特征图List
多尺度鉴别器就是在模型中定义两个鉴别器,一个鉴别器原图尺寸输入,另一个做一个平局池化后输入,最后返回的也是两个鉴别器各模块特征图的list
VGG的定义也和鉴别器差不多,从torchvision中得到与训练的VGG模型把他差分层几个模块,forward也是返回的是特征图的list,用于后面计算感受野损失
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
这篇文章讲的挺好的,我也主要参考了这篇文章的观点。
1、文章的baseline是基于CycleGAN改进的,增加了一个新的注意力机制(CAM)和可学习的归一化函数(Adam)来提升风格迁移效果。
2 、 使 用 C A M 注 意 力 机 制 来 增 强 风 格 迁 移 中 重 要 区 域 的 转 换 。 \color{red}{2、使用CAM注意力机制来增强风格迁移中重要区域的转换。} 2、使用CAM注意力机制来增强风格迁移中重要区域的转换。 生成器的注意力机制用来判断其来自源域的概率(例如如果是把A转为B的生成器,如果输入为A则其辅助分类器的目标是接近于1,如果输入的是B<因为IdentityLoss>则其辅助分类器的目标是接近于0)。鉴别器的注意力机制是希望真实图片接近于1,伪造图片接近于0,而生成器则希望鉴别器的注意力机制能把伪造图片接近于1。
具体做法就是把就是将经过编码器后得到的特征图进行全局平局池化和全局最大池化,从而得到通道数量的1*1的值,将这些在输入到辅助分类器(全连接)做分类,再把全连接的权重取出来重新乘到经过编码器得到的特征图上,最终得到注意力特征图。
3 、 使 用 A d a L I N , 自 适 应 层 实 例 归 一 化 。 \color{red}{3、使用AdaLIN,自适应层实例归一化。} 3、使用AdaLIN,自适应层实例归一化。 学习一个比例自动调节归一化中IN和LN的比例,从而让模型更灵活的控制图像形状和纹理的变化。
IN和LN都是对一个instance做正则化,而与batch无关,不同在于IN只对一张特征图(即一个通道)做归一化,而LN对所有通道做。因此IN是假设同一instance在同一层得到的不同特征图是无关的,但个人看来还是多少有点关系,因此如果用IN单独作用于每个特征图可能会产生一些对原来语义具有干扰的信息。而LN是对所有特征图进行归一化,这就导致无法较好的保存每个特征图的特性,从而使归一化后会丢失一些信息。因此作者才想能不能把IN和LN两者结合起来,结合两者的优势,抵消相互的不足。
具体做法是将注意力特征图经过一些卷积层后得到的特征图全部一下子拉平输入到2个全连接层中,分别得到γ和β。然后再将这些特征图分别用IN和BN的方式,求出其均值{uI,uL},方差{δI,δL},最后对特征图进行标准化得到{αI,αL},然后用一个可学习参数ρ控制其比例。可以看出ρ接近1则IN重要,ρ接近0则LN重要。ρ在残差模块中初始化为1,在上采样模块中初始化为0(上采样其实用的LIN)
4 、 损 失 上 用 L S G A N + C y c l e L o s s + I d e n t i t y L o s s + C A M L o s s 。 \color{red}{4、损失上用LSGAN+CycleLoss+IdentityLoss+CAMLoss。} 4、损失上用LSGAN+CycleLoss+IdentityLoss+CAMLoss。 CycleLoss是为了缓解模式崩塌。IdentityLoss是保护颜色的一致性。CAMLoss是告诉G和D两个域之间最大的差别。注意的是CAMLoss中,生成器的CAMLoss用的是BCELoss,其他的都是MSELoss。
但是我不理解,为什么生成器的CAMLoss要用BCELoss?而且为什么要让输入源域时接近于1,输入目标域时接近于0.
5 、 为 什 么 要 A d a L I N ? \color{blue}{5、为什么要AdaLIN?} 5、为什么要AdaLIN? 作者在实验中发现如果在生成器中全使用IN的话(c),那么在之前编码阶段的残差模块使用IN所保留下来的耳环和颧骨周围的阴影等特征就并不能在上采样中的IN层被捕获到这些全局特征,这也就导致了风格迁移量并不多。
但是如果 (d)在生成器中都使用LN的话,虽热风格迁移量是多了,但是残差模块中使用LN会导致源域的一些信息不能像IN那样被保留。
这就告诉了我们其实在编码阶段,其实IN比LN要重要些,因为IN能更好的保留源域的信息,但是在上采样阶段进行风格迁移时,LN就比IN重要了。
因此作者就想到用AdaLIN来在解码阶段自动的调节IN和LN的比例,从而更好的进行风格迁移。
6 、 用 K I D 做 评 价 指 标 。 \color{blue}{6、用KID做评价指标。} 6、用KID做评价指标。
7 、 I N 在 风 格 迁 移 中 比 B N 和 L N 中 用 的 更 多 。 \color{blue}{7、IN在风格迁移中比BN和LN中用的更多。} 7、IN在风格迁移中比BN和LN中用的更多。
8、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/U-GAT-IT
参考了官方代码
CAM是把经过下采样和Res模块后得到的特征r3[1,64,64,64](NCHW),进行全局平局池化和全局最大池化得到2个通道维度数量的向量[1,64,1,1],再将这个向量拉平后送入64->1的FC层,从而得到两个11的值gap_logit和gmp_logit,然后将FC的权重取出来乘到r3上得到注意力图gap和gmp,经过通道合并后送入11卷积将通道还原。
AdaLIN是将CAM得到的注意力特征图直接拉平x_送入全连接self.gamma和self.beta得到AdaLIN参数gamma和beta,再送给上采样模块。
AdaLIN中可学习参数为rho[1,64,1,1],计算注意力特征图的IN[1,64,64,64]和LN[1,64,64,64],然后用rho控制其占比,最终用之前全连接得到的参数参数gamma和beta再标准化一次
CAMLoss中注意,鉴别器的希望真实图片在辅助分类器中的得分越接近于1越好,希望伪造图片在辅助分类器的得分越接近于0越好,并且用的是MSELoss。
生成器希望生成的伪造图在判别器的辅助分类器得分越接近1越好,并且还希望生成器输入为源域时A2A或B2B
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
因为U-GAT-IT用到了CAM,所以这里大概看了一些CAM的论文
1 、 C N N 的 各 , 层 的 卷 积 单 元 实 际 是 物 体 检 测 器 。 \color{blue}{1、CNN的各,层的卷积单元实际是物体检测器。} 1、CNN的各,层的卷积单元实际是物体检测器。 因为经过卷积后产生的特征图会有高亮的地方,这些高亮的地方就表示输入图片与卷积核的特征匹配上了,经过卷积的加权求和从而产生了高亮区域。因此这些区域可以用于定位。但是经过全连接过后由于会把特征图展平,因此这种位置信息就会消失。
2 、 用 全 局 平 均 池 化 。 \color{red}{2、用全局平均池化。} 2、用全局平均池化。 因为全局平均池化(GAP)会涉及到整张特征图的值,所有低激活值也会影响输出,而全局最大池化(GMP)除了最具辨别性的特征区域以外,所有特征区域的低分不会影响最后结果。换句话说GAP会鼓励网络识别对象的整体,而GMP则鼓励网络关注对象的一个部分。因此作者选择在CAM中使用GAP。
3 、 C A M 。 \color{red}{3、CAM。} 3、CAM。 假设卷积后的特征图为[1,3,64,64]即3张6464大小的特征图,经过全局平局池化得到[1,3,1,1]的特征,即把6464的特征图去加起来求平均值。然后拉平为[1,3]经过一个全连接层(3->1),得到1个值,这个值就是物体类别Astralian terrier的得分。最后把全连接的权重取出来[1,3]乘到特征图[1,3,64,64]上去得到CAM[1,3,64,64 ]。
CAM简单来说就是不同空间区域的线性加权可视化。将CAM图Resize为输入图片大小就能清楚看出网络认为是某类物体时所看重的相关区域。如其下图,如果网络认为是狗的依据是通过看到狗头来判断的。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
因为photo2cartoon)用到了Hourglass来增强模型,所以这里大概看了一下Hourglass的论文
1、HouGlass本来是用来做姿态估计的,主要贡献在于利用多尺度特征来识别姿态。以前估计姿态的网络结构,大多只使用最后一层的卷积特征,这样会造成信息的丢失。
2 、 H o u r G l a s s 模 块 结 构 。 \color{red}{2、HourGlass模块结构。} 2、HourGlass模块结构。
像FCN那种网络结构,更注重编码阶段,而在解码阶段不太注重,因为FCN将更多的层数放在了编码阶段。
但作者用了对称的结构,即编码和解码层数相同。
下图,每个白框都是一个残差模块。整个网络有点像Unet的形式,只不过把Unet的卷积模块换为了残差模块,以及在跳跃连接上加了残差模块。
残差模块如下
整个网络是串联起来的,一个HourGlass接了另一个HourGlass,这是为了反复评估全局特征和局部特征,因为作者认为姿态估计是如果在一个HourGlass中如果出错了还能在之后的HourGlass中纠正回来。
蓝色区域是热力图,是通过1*1卷积改变通道得来的,可以用于计算loss。
3 、 小 卷 积 核 比 大 卷 积 更 能 捕 捉 更 大 的 空 间 上 下 文 信 息 。 \color{blue}{3、小卷积核比大卷积更能捕捉更大的空间上下文信息。} 3、小卷积核比大卷积更能捕捉更大的空间上下文信息。 例如使用2个独立的33卷积来替换5%卷积。
8、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/HourGlass
参考了photo2cartoon的Hourglass代码
残差模块其实用的是Inception结构
HourGlass模块的特征一个经过残差模型用于之后的跳跃连接,另一个经过池化后继续下采样编码。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
这篇文章是在U-GAT-IT基础上进行改进的,是为了解决少样本人像卡通画的问题。
1 、 以 前 人 像 卡 通 画 遇 到 的 问 题 。 \color{blue}{1、以前人像卡通画遇到的问题。} 1、以前人像卡通画遇到的问题。 以前的卡通画并没有考虑到人年龄的问题,例如女生照片有大眼睛,而男生不会有,老人有皱纹,而儿童没有。并且不同年龄的训练样本还不平衡,年轻女性的样本多,其他年龄组的样本少。
2 、 p h o t o 2 c a r t o o n 基 础 模 型 。 \color{red}{2、photo2cartoon基础模型。} 2、photo2cartoon基础模型。 作者的基础模型是在U-GAT-IT上面进行改进的,主要是在U-GAT-IT生成器上加了四个hourglass,loss增加了Face-IDloss,使用了Soft-AdaIN归一化。
3 、 编 码 器 的 底 层 和 解 码 器 的 上 层 特 征 不 共 享 , 而 编 码 器 的 上 层 和 解 码 器 的 低 层 特 征 不 共 享 。 \color{blue}{3、编码器的底层和解码器的上层特征不共享,而编码器的上层和解码器的低层特征不共享。} 3、编码器的底层和解码器的上层特征不共享,而编码器的上层和解码器的低层特征不共享。 这是在One-Shot Unsupervised Cross Domain Translation中提到。并且作者在发现用小样本训练模型容易造成网络过拟合,但如果固定那些共享特征层不backward的话,就会提升效果。
4 、 网 络 结 构 。 \color{red}{4、网络结构。} 4、网络结构。
样本分组 0组:年轻女性 1组:年轻男性 2组:小孩 3组:老人
只有训练第0组时才会更新红框的部分,训练1、2、3组都不会更新。
5 、 损 失 函 数 。 \color{red}{5、损失函数。} 5、损失函数。
GANLoss用的LSGAN
CycleLoss为了避免模式崩塌
IdentityLoss保证颜色
CAMLoss让模型找到两个域最大的不同
FaceIDLoss保证真实人脸和卡通人脸的一致性,F为与训练的人脸识别模型
Group classification Loss,这个loss放在D的最后一层,判断是哪个组的,估计是为了更加好的帮助生成器区分不同组吧。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
Transformer已经统一了NLP,但是在CV中的应用还是很少,并且CV中Attention结构更多的是对Conv的一种补充来使用。因此作者就想能不能用纯Transformer的结构做图像分类,并且尽可能的不修改其结构。
1 、 V i T 模 型 结 构 。 \color{red}{1、ViT模型结构。} 1、ViT模型结构。
(1)我们假设,输入的图像为[1,3,256,256]。然后把其拆分成8 * 8=64个patch,每个patch为32 * 32大小,通道为3,则得到[1,8 * 8,32 * 32 * 3]即[1,64,3072]的数据。
(2)送入全连接,全连接(图中的Linear Projection of Flattened Patches部分)为3072->1024,因此得到[1,64,1024]的Patch embedding。
(3)加入类别向量[1,1,1024]与上一步的Patch embedding构成了[1,65,1024]。
(4)加入Position Embedding。将一个可学习的位置向量[1,65,1024],将其加到(3)中的[1,65,1024]向量中得到一个新的向量[1,65,1024],这就是Embedded Patches。
(5)将Embedded Patches[1,65,1024]送入L个Transfomer Encoder中经过一系列的层归一化+多头注意力机制+跳跃连接等,得到[1,65,1024]的输出。
(6)取出第一个向量[1,1,1024]将其经过一个1024->num_class的MLP得到[1,1,num_clas]的向量即为分类结果。
2 、 为 什 么 要 加 类 别 向 量 。 \color{red}{2、为什么要加类别向量。} 2、为什么要加类别向量。 假设不加类别向量,那么就是将[1,64,1024]的向量送入Transformer Encoder中去,最后Transformer Encode输出也是[1,64,1024],我们知道自注意力机制会让输入向量中的每个向量去考虑另外的每个向量,那么问题来了最后输出的64个1024向量到底用哪一个向量送入分类的MLP呢?显然用哪一个都不合适,因此作者就想到人为添加一个可学习的类别向量,让该向量去参考其他64个向量,然后去这个向量作为类别预测的输入。
3 、 经 过 大 数 据 集 预 训 练 在 迁 移 到 小 数 据 集 上 V i T 效 果 能 超 过 C N N 的 S O T A \color{blue}{3、经过大数据集预训练在迁移到小数据集上ViT效果能超过CNN的SOTA} 3、经过大数据集预训练在迁移到小数据集上ViT效果能超过CNN的SOTA
4 、 小 数 据 集 预 训 练 后 V i T 不 如 B i T 。 \color{blue}{4、小数据集预训练后ViT不如BiT。} 4、小数据集预训练后ViT不如BiT。 在小数据集上预训练的ViT结果不如基于ResNet的BiT,在中数据集上两者差不多,只有在大数据上预训练后效果才优于BiT。
5 、 预 训 练 数 据 要 求 。 \color{blue}{5、预训练数据要求。} 5、预训练数据要求。 在相同的预训练量下ViT效果优于BiT。混合模型(Transformer+CNN)在预训练epoch少的情况下优于ViT。
6 、 P o s i t i o n e m b e d d i n g 能 自 己 学 习 到 位 置 特 征 。 \color{blue}{6、Position embedding能自己学习到位置特征。} 6、Positionembedding能自己学习到位置特征。 可以看到随机初始化的Position embedding学习到了2D图像的位置信息,所以说就不需要使用2D的Position embedding而用1D的就行,也不用人工设计Position embedding。
7 、 V i T 的 第 0 层 就 已 经 能 获 得 全 局 信 息 。 \color{blue}{7、ViT的第0层就已经能获得全局信息。} 7、ViT的第0层就已经能获得全局信息。 ViT网络的第0层就已经能获得全局信息,并且随着层数增加获得全局信息的感受野也越多,这在CNN中第0层是无法实现的。
8、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/ViT
参考了的代码
(1)把[1,3,256,256]的图片拆分成64个patch得到[1,8 * 8, 32 * 32 * 3],然后经过 Liner Projection of Flattened Patches把32 * 32 * 映射为1024得到[1,64,1024]
(2)用self.cls_token = nn.Parameter(torch.randn(1, 1, dim))
生成类别patch[1,1,1024]与(1)的[1,64,1024]按通道拼接得到[1,65,1024]的Patch Embedding
(3)用self.pos_embedding = nn.Parameter(torch.randn(1, num_patches + 1, dim))
生成[1,65,1024]大小的Position Embedding直接加到Patch Embedding上得到[1,65,1024]的Embeded Patches,因为Liner Projection of Flattened Patches是MLP所以又加了个dropout层
(4)在Transformer中先用nn.LayerNorm(dim)
对[1,65,1024]的Embeded Patches进行归一化然后送入全连接self.to_qkv = nn.Linear(dim, inner_dim * 3, bias = False)
中得到q、k、v [1,65,512]再用rearrange将其reshape为矩阵形状[1,8,65,64],其中8为head的个数。
(5)按照如下公式进行点积得到
(6)将点积后的结果(多个heads的)concat到一起在经过一个全连接,这是为了使得多个head的信息进行交互并且把维度转为最初的1024维,所以最终输出为[1,65,1024]。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
1 、 V i T 不 适 合 做 下 游 任 务 。 \color{blue}{1、ViT不适合做下游任务。} 1、ViT不适合做下游任务。ViT对于识别效果很好,但是其在物体检测、语义分割和实例分割上其实是不适合的。原因是因为ViT是柱形结果,其输入是多大输出就是多大,但对于那种需要结合多种尺度特征来进行预测的任务(如分割FPN)就不太适用。另外像分割这种任务往往需要你切分的patch越小越好(因为可以更精细的预测),但是这是不现实的,因为显存不够,所以往往大家都采用32 * 32或16 * 16的patch。为了解决这个问题,作者提出了PVT。
2 、 P V T 网 络 结 构 。 \color{red}{2、PVT网络结构。} 2、PVT网络结构。
(1)将H * W * 3的图片划分为(H * W)/(P * P)块,每块的大小就是P * P * C,即维度为[(H/P,W/P, P * P * C]。
(2)经过Patch Embedding。里面有个全连接将P * P * C映射为C1维,得到[(H/P,W/P, C1]的数据。然后在经过一个norm,维度是不变的。
(3)将[(H/P,W/P, C1]的数据reshape为[(H * W)/(P * P), C1]的数据并加入位置信息(同ViT一样),维度不变还是[(H * W)/(P * P), C1]。
(4)经过Transomer Encoder后输出为[(H * W)/(P * P), C1],最后reshape为[H/P,W/P, C1]。这样特征图就从[H,W, C]变为了[H/P,W/P, C1]。
这是PTV减小参数量的第一个原因。
3 、 S R A 结 构 。 \color{red}{3、SRA结构。} 3、SRA结构。 这是PTV能减小参数量的第二原因。因为self-attention中的Q、K、V是相当大的,并且每一给patch都有一个Q、K、V,这就很占显存。因此作者想到了减少K、V的大小来降低显存。
假设输入的x维度为[H * W,C],ViT是将其分别与Wq、Wk、Wv相乘得到Q、K、V然后送入多头注意力机制。但是这样需要的Q和V的维度就特别大,Q点乘V的计算也更耗时,最后生成的注意力特征图的维度也特别大。
因此作者就先将维度为[H * W,C]的K和Vreshape为[(H * W )/ (R * R),(R * R) * C]大小,然后通过一个全连接将R * R * C维映射到C维上,之后再经过一个LN,就得到了[(H * W )/ (R * R),C]维度的Q和V,之后才送入多头注意力机制,从而实现了降低K、V的大小来减小显存消耗以及计算耗时。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
因为StyleGAN会用到AdIN,所以这里大概总结一下AdaIN
1 、 B N 会 抑 制 风 格 迁 移 。 \color{blue}{1、BN会抑制风格迁移。} 1、BN会抑制风格迁移。
γ和β是可学习参数,BN是所有batch的同一个通道进行归一化
2 、 I N 在 风 格 迁 移 中 比 B N 更 能 提 升 效 果 。 \color{blue}{2、IN在风格迁移中比BN更能提升效果。} 2、IN在风格迁移中比BN更能提升效果。
IN是一个batch的每一个通道单独做归一化
3 、 风 格 迁 移 中 用 I N 比 用 B N 的 模 型 L o s s 下 降 更 快 \color{blue}{3、风格迁移中用IN比用BN的模型Loss下降更快} 3、风格迁移中用IN比用BN的模型Loss下降更快
4 、 I N 和 B N 都 只 能 进 行 一 种 风 格 迁 移 \color{blue}{4、IN和BN都只能进行一种风格迁移} 4、IN和BN都只能进行一种风格迁移
5 、 A d a I N \color{red}{5、AdaIN} 5、AdaIN
x为内容图像的编码特征图,y为风格图像的编码特征图。其实就是将x减去均值除以方差来去除x本身的风格信息,然后再乘上y的方差,加上y的均值,从而转变为y的风格
5 、 损 失 函 数 \color{red}{5、损失函数} 5、损失函数
分为风格损失Ls和内容损失Lc
内容损失就是将AdaIN输出的特征图t与最后Decoder(g)后生成的图片再经过一次VGGEncoder(f)后得到的特征图f(g(t))计算欧式距离
风格损失就是将模型输入的风格图s与Decoder后生成的图片再经过VGGEncoder,将VGGEncoder的某些层特征图拿出来计算欧式距离。
6、代码:https://github.com/hahahappyboy/GAN-Thesis-Retrieval/tree/main/AdaIN
代码比较简单就是一input1减去均值除以方差再乘上input2的方差加均值
可以看到adaIN后a1的整体色调和亮度变成了a2的了,因为adaIN把a1的数据分布转化为a2的数据分布了。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
1 、 卷 积 的 不 足 。 \color{blue}{1、卷积的不足。} 1、卷积的不足。 卷积是局部感受野,不能得到全局信息,除非通过充足的层数。但更深的层数就容易导致细节的丢失。
2 、 纯 t r a n s f o r m e r 在 分 类 任 务 上 效 果 很 好 , 但 在 图 像 生 成 任 务 上 却 不 一 定 。 \color{blue}{2、纯transformer在分类任务上效果很好,但在图像生成任务上却不一定。} 2、纯transformer在分类任务上效果很好,但在图像生成任务上却不一定。
3 、 内 存 友 好 生 成 器 。 \color{red}{3、内存友好生成器。} 3、内存友好生成器。
如果通过堆叠transformer编码器以逐像素的方式生成图像,会容易导致显存爆炸,因此作者想即使用transfomer结构又不想显存爆炸,所以提出了该模型。
(1)先通过MLP把随机噪声生成[64,C]大小的序列然后加上可学习的位置信息维度不变,还是[64,C]。
(2)经过transformer模块,维度还是[64,C]
(3)经过上采样模块,对于低分辨率特征图(分辨率在64 * 64 以下的),采样的双三次线性插值,先把[64,C],reshape为2D的[8,8,C],然后插值为[16,16,C],最后再reshape为[16 * 16,C],送入下一个transformer模块
(4)这样一直持续到特征图大小为[64 * 64,C],之后上采样模块就用pixelshuffle模块了,pixelshuffle其实就是把特征图重排列,如把[C * R * R,H,W]reshape为[C,H * R,W * R]。这里为了与下图对应,拿特征图为[128 * 128,C/4]举例。先reshape为[128,128,C/4],用pixelshuffle变为[256,256,C/16],最后再resahpe回[256 * 256,C/16]的向量。
(5)最后一层是把[256 * 256,C/16]的向量送入MLP映射为[256 * 256,3],最后reshape为[256,256,3],得到小狗的图片
4 、 多 尺 度 鉴 别 器 。 \color{red}{4、多尺度鉴别器。} 4、多尺度鉴别器。
作者在切分patch送入鉴别器时,patch大了会牺牲纹理细节,小的patch会导致更长的序列,从而小号更多的内存,因此设计了多尺度鉴别器。
(1)先把[H,W,3]的图片reshape为[(H/P) * (H/P),P * P * 3]的向量然后MLP为[(H/P) * (H/P),C/4]的向量,然后加上位置信息。
(2)[(H/P) * (H/P),P * P * 3]的向量reshape为[(H/P),(H/P),C/4]再平均池化为[(H/2P),(H/2P),C/4]再reshape为[(H/2P) * (H/2P),C/4]的向量。
(3)把输入图[H,W,3]reshape为[(H/2P) * (H/2P),4 * P * P * 3],然后经过MLP映射为[(H/2P) * (H/2P),C/4]的向量
(4)把(2)中得到的[(H/2P) * (H/2P),C/4]的向量与(3)得到的[(H/2P) * (H/2P),C/4]向量拼接到一起得到[(H/2P) * (H/2P),C/2]的向量送入下一个tranformers模块,这一步是为了让模型又有语义细结构又具有纹理细节。
(5)再最后一个transformer模块的输入加入类别向量,拿该向量对应的的输出去做分类。
5 、 G r a i d S e l f − a t t e n t i o n 。 \color{red}{5、Graid Self-attention。} 5、GraidSelf−attention。
Self-attention虽然可以捕捉全局的信息,但是内存消耗实在太大了,如果输入图像分辨率高就不行了。
Graid Self-attention就是把特征图分为几块,分别用Self-attention,这样就降低了内存消耗。
Graid Self-attention会导致各个分割块之间信息无法直接交互从而导致块的边界无法衔接。但是实际上在足够多的训练时间下,这种情况会逐渐消失,这是因为鉴别器的感受野是覆盖了整张图片的,从而指导生成器去消除这种边界影响。
6 、 作 者 还 用 了 一 系 列 方 法 来 提 高 G A N 的 稳 定 性 , 可 惜 我 看 不 懂 。 \color{red}{6、作者还用了一系列方法来提高GAN的稳定性,可惜我看不懂。} 6、作者还用了一系列方法来提高GAN的稳定性,可惜我看不懂。
7 、 作 者 评 价 指 标 用 I S 和 F I D , 并 且 在 消 融 实 验 中 , 逐 渐 增 加 每 一 项 创 新 , 来 查 看 提 升 结 果 。 \color{blue}{7、作者评价指标用IS和FID,并且在消融实验中,逐渐增加每一项创新,来查看提升结果。} 7、作者评价指标用IS和FID,并且在消融实验中,逐渐增加每一项创新,来查看提升结果。这一点可以借鉴
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
1 、 使 用 逐 像 素 求 差 的 损 失 函 数 无 法 抓 住 两 幅 图 像 在 视 觉 上 存 在 的 差 异 。 \color{blue}{1、使用逐像素求差的损失函数无法抓住两幅图像在视觉上存在的差异。} 1、使用逐像素求差的损失函数无法抓住两幅图像在视觉上存在的差异。 作者认为使用逐像素求差的损失函数是无法捕获输出与标签之间的视觉感知上的差异的。例如考虑两张一摸一样的图像,只有1像素偏移上的擦会议,尽管从人类视觉感知上这两幅图片是一摸一样的,但如果使用逐像素求差的方法来衡量,这两幅图像就会非常不一样。
2 、 感 受 野 损 失 。 \color{red}{2、感受野损失。} 2、感受野损失。
这里只介绍特征重构损失,在风格迁移中也主要使用这个损失。另一个风格重构损失,我看不懂。。。
特征重构损失其实就是让两幅图像ŷ和y经过网络后,在某些层得到的特征图计算MSE误差
作者发现找到一个图像ŷ使较低层的特征损失最小化往往能产生视觉上和y不太能区分清楚的图像,如果用高层特征来计算特征损失最小化,那么生成的图片内容和全局结果会被保留下来,但是颜色纹理和精确的形状就不复存在了。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
作者对Pix2PixHD进行了些许改进以便其生成更好的皮肤镜图像来扩充样本,最终提升分割网络的精确度
1 、 使 用 超 像 素 算 法 构 造 领 域 边 界 映 射 。 \color{red}{1、使用超像素算法构造领域边界映射。} 1、使用超像素算法构造领域边界映射。
超像素块的数量设置为1000,将超像素块从左到右、从上到下的升序编号。
然后对超像素块进行遍历,如果超像素块中超过一半的区域属于正常的皮肤区域,则像素值从1000开始编号,每次递增1;否则,对于痣病变皮肤区域,超像素块的像素值从2000开始编号,每次递增1;黑色素瘤病变从3000、脂溢性角化并从4000开始,都是每次递增1.通过编码好的实例映射得到领域边界映射。
2 、 P i x 2 P i x H D 生 成 器 结 构 。 \color{red}{2、Pix2PixHD生成器结构。} 2、Pix2PixHD生成器结构。
由于全局生成器的输出分辨率满足数据的大小要求,为了减少计算量,作者只使用了Pix2pixHD的全局生成器,就没用局部增强器。
此外作者在全局生成器中加入了跳跃连接,有效的融合图像的浅层和深层特征
3 、 损 失 函 数 设 计 。 \color{red}{3、损失函数设计。} 3、损失函数设计。
作者引入了标准差损失函数,来对特征匹配损失进行微调。
其实就是在匹配损失后面加了一个标准差,为什么加作者也没说。
蓝 色 字 代 表 作 者 的 想 法 \color{blue}{ 蓝色字代表作者的想法} 蓝色字代表作者的想法
红 色 字 代 表 作 者 的 创 新 \color{red}{ 红色字代表作者的创新} 红色字代表作者的创新
作者想用一个网络在无标签的情况下,让生成器生成具有输入x的身份(外貌),输入y的动作的图片
1 、 身 份 损 失 , 学 习 输 入 图 像 的 身 份 。 \color{red}{1、身份损失,学习输入图像的身份。} 1、身份损失,学习输入图像的身份。
为了让生成器学到输入x的身份Ix,作者将x,y两张图片(来自不同的人物)送入生成器生成伪造图片G(x,y),再结合上真实图片x拿去给鉴别器判断是不是属于同一个人物。注意这里鉴别器并不在乎输入的2张图片动作是咋样的,只管身份是不是一样的。Loss用的LSGAN。
2 、 C y c l e G A N 和 D i s c o G A N 的 缺 陷 。 \color{blue}{2、CycleGAN和DiscoGAN的缺陷。} 2、CycleGAN和DiscoGAN的缺陷。CycleGAN和DiscoGAN为了保证风格迁移的形状使用了两个连续的转换X->Y->X。即CycelLoss,但是这样做有一个缺点就是可能第两次转换只是学到第一次转换的反映射,而并没有去学到形状信息。
3 、 形 状 损 失 , 学 习 输 入 图 像 的 动 作 。 \color{red}{3、形状损失,学习输入图像的动作。} 3、形状损失,学习输入图像的动作。
如果只用身份损失的话,生成器将只会生成一张与输入x身份相同的图像,而完全不在乎输入y。再加上并没有(Ix,Sy)这样的标签,那么该如何做才能让生成器学习y的动作呢?
为了让生成器学习y的动作,作者想到如果与x有相同身份的y给生成器,再用L1Loss处理y与G(x,y),那么生成器生成的G(x,y)就应该是输入y本身。这是因为本来生成器是要生成G(x,y)=(Ix,Sy),但是因为x与y有相同的身份,Ix=Iy,那么G(x,y)=(Ix,Sy)=(Iy,Sy)=y。
从而构成Ls1Loss,这里x与y是相同身份,不同动作
但是这么做有个问题,那就是可能生成器只会学习y而完全忽视了x,所以作者再这基础上增加了Ls2aLoss和Ls2bLoss,这里拿Ls2bLoss举例
x=(Ix,Sx)与y=(Iy,Sy)输入生成器G得到G(x,y)=(Ix,Sy)作为新x’=(Ix,Sy),再把之前的y=(Iy,Sy)作为新y’=(Iy,Sy)再输入生成器G中得到G(x’,y‘)=(Ix,Sy),再把G(x’,y‘)与y’=(Iy,Sy)做L1Loss得到Ls2bLoss。Ls2aLoss同理。
这样就让生成器也注意到输入x了。最终Loss为所有Loss之和。
4 、 M i n − P a t c h 训 练 , 让 生 成 器 将 注 意 力 集 中 在 图 像 中 最 奇 怪 的 地 方 。 \color{red}{4、Min-Patch训练,让生成器将注意力集中在图像中最奇怪的地方。} 4、Min−Patch训练,让生成器将注意力集中在图像中最奇怪的地方。
之前的模型用的都是PatchGAN,
[唐]金缕衣-------佚名
劝君莫惜金缕衣,劝君惜取少年时。
花开堪折直须折,莫待无花空折枝。