SimSwap: An Efficient Framework For High Fidelity Face Swapping

offifical infernece code

背景

Deepfake式的换脸decoder的目的是将B的脸换到A的头上。但输入特征是由从B处得到,因此要求decoder学习到了A的表示。这注定了Deepfake只能对两个人之间换脸,无法实现任意人之间的换脸。

Method

SimSwap其实也很简单,模型分成5个部分。

  • 一个Encoder,对target image提取特征。
  • IIM: 由多个ID block组成的残差网络。
  • Decoder,输出具备source image 的人脸的图像,但属性来自target image。
  • Identity Extractor:直接采用了arcface,提取人脸id code。
  • Discriminator: 多尺度的D

为了简单描述,我们将A代表source image, B代表target Image。生成图像用R代表。

SimSwap: An Efficient Framework For High Fidelity Face Swapping_第1张图片

使用arcface提取source image的id特征,将id特征作为style,使用adain,将id信息注入到 E ( B ) E(B) E(B)中。为了能让ID信息有足够的影响力,IIM足足有9个ID block。

损失函数有两个

  • GAN loss,作者使用hinge version
  • weak feature matching loss
  • ID loss
  • Reconstruction loss: source和target都是B或者A,重构自己的脸。

ID loss让生成的图像和A是一个人,但过强的ID loss让R总是正脸,直接丢失了B的属性(背景,光照,头发,姿态等)。因此需要R和B对齐这些属性,Weak FM loss就是为了解决这个问题。

这里主要说一下Weak FM loss。

Weak Feature Matching Loss

如果模型需要监督,又不用GAN的架构,那肯定需要一个具备A脸B的头的GT,然后用L2的重构loss训练就行。但这种GT是没有的。
因此作者才会使用Gan的架构,一方面让人脸生成得足够真实。但只有GAN的架构是不够的。
GAN loss并不会严格控制生成图像R具有B的头,B的背景等等其他属性。

没错,R的attribute必须和B对齐,否则生成的图像虽然像A,但可能已经和B没有啥关系了。
而和FM loss的区别就在于,weak FM loss只计算D的后几层。
L w F M ( D ) = ∑ i = m M 1 N i ∥ D ( i ) ( I R ) − D ( i ) ( I T ) ∥ 1 L_{w F M}(D)=\sum_{i=m}^{M} \frac{1}{N_{i}}\left\|D^{(i)}\left(I_{R}\right)-D^{(i)}\left(I_{T}\right)\right\|_{1} LwFM(D)=i=mMNi1D(i)(IR)D(i)(IT)1

作者解释:因为浅层特征表示细节,而换脸任务要求更换掉B的脸,则要求和B的细节不能一样。
但这种解释其实比较牵强。因为光照,背景等也是细节,这些其实要保持一致的。(但也许econstruction loss是用来保证这些细节,要求D生成和B一样的细节,但是id信息确实来自source。)

你可能感兴趣的:(人脸相关(检测,识别,GAN),transformer,深度学习,pytorch)