structure:
ps:(生成器的最后一层和判别器的第一层不加batch-norm)
paper: http://arxiv.org/abs/1511.06434
contributions:
1 将网络应用于GAN的训练。
2 为GAN的训练提供了一个很好的网络拓扑结构。
3 表明生成的特征具有向量的计算特性。
weakness:
1 但是对GAN训练稳定性来说是治标不治本,没有从根本上解决问题,而且训练的时候仍需要小心的平衡G,D的训练进程,往往是训练一个多次,训练另一个一次。
structure:
paper: https://arxiv.org/abs/1805.08318
contributions:
1 利用self-attention机制更好地考虑全局信息。
2 利用spectral normalization和TTUR(two timescale update rule)使模型训练更加稳定。
3 根据self-attention机制可以生成质量非常高的数据。
structure:
paper: https://arxiv.org/abs/1809.11096
contributions:
1 通过2-4倍的增加参数量(增加channel),8倍的扩大batchsize,可以使GAN获得最大的性能提升。
2 通过使用截断技巧(truncation trick),可以使得训练更加平稳,但是需要在多样性和逼真度之间做平衡。
3 通过现存的和其他新颖的各种技术的集合,可以保证训练的平稳性,但是精度也会随之下降,需要在性能和训练平稳性之间做平衡。
负面影响:
Reference: https://blog.csdn.net/qq_14845119/article/details/85619705
1 增加网络深度会使得精度降低。
2 在判别器上使用贡献嵌入参数的方法,对参数的选择非常敏感,刚开始有助于训练,后续则很难优化。
3 使用WeightNorm 替换BatchNorm 会使得训练难以收敛,去掉BatchNorm 只有Spectral Normalization 也会使得难以收敛。
4 判别器中增加BatchNorm 会使得训练难以收敛。
5 在128128的输入情况下,改变attention block对精度没提升,在256256输入的情况下,将attention block上移一级,会对精度有提升。
6 相比采用33的滤波器,采用55的滤波器会使精度有略微提升,而7*7则不会。
7 使用膨胀卷积会降低精度
8 将生成器中的最近邻插值换为双线性插值会使得精度降低。
9 在共享嵌入中使用权值衰减(weight decay),当该衰减值较大(10-6 )会损失精度,较小(10-8 )会起不到作用,不能阻止梯度爆炸。
10 在类别嵌入中,使用多层感知机(MLP)并不比线性投影(linear projections)好。
11 梯度归一化截断会使得训练不平稳。
ps: 判别器最后一层去掉sigmoid。
W-GAN的网络结构和GAN一样,损失函数替换成Wasserstein距离。
paper: https://arxiv.org/abs/1701.07875
contributions:
1 以Wasserstein距离作为收敛性的度量(以缩小Wasserstein距离为目标)。
2 利用lipschitz连续性限制手法-梯度裁减,使得训练更加稳定。
3 解决了模式崩溃的(collapse mode)问题,生成结果多样性更丰富。
4 对GAN的训练提供了一个收敛指标。
weakness:
1 强制裁减梯度会造成权重的两极化,权重的值大部分分布在边界处,这对于深度神经网络来说不能充分发挥深度神经网络的拟合能力;并且,也发现强制剪切权重容易导致梯度消失或者梯度爆炸,梯度消失很好理解,就是权重得不到更新信息,梯度爆炸就是更新过猛了,权重每次更新都变化很大,很容易导致训练不稳定。
ps: 判别器最后一层去掉sigmoid。
W-GAN-GP的网络结构和GAN一样,损失函数替换成Wasserstein距离。
paper: https://arxiv.org/abs/1704.00028
contributions:
1 提出了一种新的lipschitz连续性限制手法—梯度惩罚,避免了权重两极化的情况,解决了训练梯度消失梯度爆炸的问题(由于是对每个batch中的每一个样本都做了梯度惩罚,所以判别器中不建议使用 batch norm且激活函数一般不使用基于使用动量的优化算法)。
2 比标准WGAN拥有更快的收敛速度,并能生成更高质量的样本。
3 提供稳定的GAN训练方式,几乎不需要怎么调参,成功训练多种针对图片生成和语言模型的GAN架构。
paper: https://arxiv.org/abs/1611.04076
contributions:
1 使用了最小二乘损失函数代替了GAN的损失函数,缓解了GAN训练不稳定和生成图像质量差多样性不足的问题。
weakness:
1 LSGAN对离群样本的惩罚机制要求所有的生成样本分布,导致样本生成的”多样性”降低, 生成的样本很可能只是对真实样本的简单”模仿”和细微改动。
structure:
paper: https://arxiv.org/abs/1711.09020
contributions:
1 设计了一个新颖的网络架构可以在只训练一个G和一个D的情况下就可以实现多领域图像转换。
2 将各个领域的特征学习映射到一个vector实现特征控制!!!
structure:
paper: https://arxiv.org/abs/1703.10717
contributions:
1 采用autoencoder结构的discriminator,使得收敛速度有所提升。
2 提供了一个超参数,这个超参数可以在图像的多样性和生成质量之间做均衡,并且能够使GAN训练的更加稳定。
3 使用Wasserstein distance评估模型。
structure:
paper: https://arxiv.org/abs/1809.03627
contributions:
1 在网络结构中加入Encoder与G一起训练,可以有效地保存聚类结构信息。
2 利用离散和连续潜在变量的混合,以在潜在空间中创建非光滑几何。
3 提出了一种适应离散连续混合的新型反向传播算法,以及一个显式反向映射网络,以获得给定数据点的潜变量,因为该问题是非凸的。
4 联合训练GAN以及具有聚类特定损失的反向映射网络,以便投影空间中的距离几何反映变量的距离几何。
structure:
paper: http://lamda.nju.edu.cn/yuy/(X(1)S(bfxaly24rpylwn55a3emukjm))/GetFile.aspx?File=papers/ijcai18-GANMM.pdf
contributions:
1 设计出一个高效的聚类网络结构。
2 使用ϵ-Expectation-Maximization 算法防止 EM 在 GAN 中过早收敛的问题。
3 设计了一个防止聚类不平衡的算法(根据当前各个聚类的情况在下一轮次提供不同数量的训练数据)。
weakness:
1 每个类别都需要训练一个GAN,内存耗费过大,训练时间过长。
structure:
paper: https://arxiv.org/abs/1706.02071
contributions:
1 提出一种GAN架构可以非常好地训练数据量小并且多样性多的数据集。
2 结合高斯混合模型对输入latent z z z做一个线性变换 z = μ k + σ k ∗ z z=\mu_{k}+\sigma_{k}*z z=μk+σk∗z。
3 对不同的数据集使用不同的架构(个人感觉这并不是很好)。
weakness:
1 整体感觉有种玄学的感觉。
structure:
paper: https://arxiv.org/abs/1806.00509
contributions:
1 结合VAE和GAN,利用AE可以得到一个比较好的latent z z z。
2 经由较好的 z z z可以得到质量较高的图像。
structure:
paper: https://arxiv.org/abs/1708.01886
contributions:
1 D由Encoder和GMM组成,利用高斯混合模型去评估fake-image和real-image之间的差别,对于真实数据需要给出一个高的概率,对以虚假数据需要给出一个低的概率。
paper: https://arxiv.org/abs/1808.10356
contributions:
1 将GMM作为latent z z z的样本集合,每次 z z z从某个高斯模型中sample。
2 利用scaling factor σ \sigma σ来控制生成样本的多样性和质量之间的关系,其中公式为 z ∣ k ∼ N ( μ k , σ ∗ Σ k ) z|k ∼ N (μ_{k} , σ ∗ Σ_{k} ) z∣k∼N(μk,σ∗Σk), σ \sigma σ越大多样性越强反而质量有所下降。
structure:
ps: 图中FC为全连接层,A为仿射变换(Affine transform),B 是每个channel的高斯噪声的系数,AdaIN为归一化操作,具体公式为 A d a I N ( x i , y ) = y s , i x i − μ ( x i ) σ ( x i ) + y b , i AdaIN(x_{i}, y)=y_{s,i}\frac{x_{i}-\mu(x_{i})}{\sigma(x_{i})}+y_{b,i} AdaIN(xi,y)=ys,iσ(xi)xi−μ(xi)+yb,i 其中 y s , i , y b , i y_{s,i},y_{b,i} ys,i,yb,i 是由 w w w 经过仿射变换得到的 y = ( y s , y b ) y=(y_{s},y_{b}) y=(ys,yb)
paper: https://arxiv.org/abs/1812.04948
contributions:
1 提出了一个新的 generator architecture,能够控制所生成图像的高层级属性。
2 可以很好地从latent vector中分离control vector和variation。
3 利用mixing regularization操作实现图像细节的掌控。
structure:
ps: AAE网络结构由一个 autoencoder 和一个 discriminator 组成,该 discriminator 需要鉴别的不是图片,而是来自 autoencoder 中的 latent z ∼ q ( z ) z\sim q(z) z∼q(z) 和自定义分布中抽取出来的 z ∼ p ( z ) z\sim p(z) z∼p(z),该网络需要做的就是让 q(z) 接近于 p(z),最终可以直接从 p(z) 中抽出 latent z z z 生成图片。
paper: https://arxiv.org/abs/1511.05644
contributions:
1 设计了一个新颖的网络结构,以 latent vector 分布的角度出发去研究生成模型。
2 利用 AE 的特性去 capture latent z 的分布。
3 利用对抗的形式引导 latent vector 的分布朝着已定义分布的形式靠近。
structure:
ps:其中Q与D共享卷积网络,Q是一个辅助性的概率分布 Q ( c ∣ x ) Q(c|x) Q(c∣x),目的在于利用 Variational Information Maximization 的技巧对互信息进行下界拟合。
paper: https://arxiv.org/abs/1606.03657
contributions:
1 将 latent code 分为 z z z 和 c c c,利用 c c c 控制生成图像的属性(形式上和CGAN一样)。
2 利用互信息的概念对 G ( z , c ) G(z,c) G(z,c) 和 c c c 建模,互信息公式为: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X) 。根据互信息的概念当 X , Y X,Y X,Y 高度相关时,在已知 Y Y Y 的情况下 X X X 不存在不确定性,即 H ( X ∣ Y ) = 0 H(X|Y)=0 H(X∣Y)=0,那么此时互信息达到最大,该网络的目的就在于最大化 G ( z , c ) G(z,c) G(z,c) 和 c c c 之间的互信息。
structure:
paper: https://arxiv.org/abs/1710.10196
contributions:
1 利用在训练过程中动态平稳叠加网络的方法得到高分辨率的图片。
2 利用 fade-in 的 trick 使得增加网络层非常稳定,不会导致突然的抖动让网络重新开始学习。
3 提出 Minibatch standard deviation(MSD) 对 mode collapse 现象进行了缓解。