第四十六周周报

学习目标:

修改ViTGAN代码

学习内容:

1、傅里叶特征

2、位置编码

学习时间:

7.22-7.28

学习产出:

一、傅里叶特征

根据StyleGAN3,将ViTGAN第一个Transformer Block的输入从仿射变换A变为傅里叶特征

二、位置编码

ViTGAN的位置编码采用的是绝对位置编码,即每个位置编码都是补丁位置的线性投影,然后接一个正弦激活函数。补丁位置被归一化到-1.0到1.0之间。想法:将绝对位置编码改为相对位置编码(在局部注意力中使用较多),在自注意力中添加相对位置编码,目前正在改,但是在维度方面遇到了困难,还没有凑好。另外可以改为傅里叶位置编码,这样可以提供多尺度的空间信息;或者改为旋转位置编码,通过高效的旋转操作在编码中加入旋转信息,提升模型的旋转不变性,并保持计算和空间上的高效。

三、改ViTGAN的Bug

由于原始的ViTGAN在生成图像和恢复训练以及FID、IS计算方面存在Bug,这周花了些时间将生成图像的Bug和恢复训练的Bug修复了。

你可能感兴趣的:(深度学习)