论文笔记:ViTGAN: Training GANs with Vision Transformers
20211intro论文研究的问题是:ViT是否可以在不使用卷积或池化的情况下完成图像生成任务即不用CNN,而使用ViT来完成图像生成任务将ViT架构集成到GAN中,发现现有的GAN正则化方法与self-attention机制的交互很差,导致训练过程中严重的不稳定——>引入了新的正则化技术来训练带有ViT的GANViTGAN模型远优于基于Transformer的GAN模型,在不使用卷积或池化的情况