[CVPR‘22 FaRL] General Facial Representation Learning in a Visual-Linguistic Manner

paper: https://arxiv.org/pdf/2112.03109v3.pdf

GitHub - FacePerceiver/FaRL: FaRL for Facial Representation Learning [Official, CVPR 2022]

摘要

  1. 提出FaRL,首个针对人脸任务的预训练大模型;
  2. 提出:1)使用contrastive loss,从image-text对中学习high-level语义特征;2)使用masked image modeling,学习low-level信息。
  3. 提出LAION-FACE数据集,包含大量的image-text对;
  4. 实验验证:1)FaRL相较其他预训练大模型,在人脸下游任务上有更好的迁移效果;2)在face parsing和face alignment中超过sota方法。

引言

  1. 预训练模型优点:1)减缓对难获取标签数据的依赖;2)便于部署,仅需训练一次即可在不同下游任务中应用。但是还未有方法探索人脸领域的预训练大模型。
  2. LAION-FACE数据集是通过从已有image-text-pair数据集LAION中筛选得到,包含两千万人脸图片。
  3. Contrastive loss:拉近匹配的image-text embedding,推远不匹配的image-text embedding;但同时,受BEiT启发,增加了masked image modeling。在LAION-FACE上预训练,测试时冻结backbone。本文的最终目标是:提供下游任务可快速使用的通用人脸特征。
  4. 在face parsing,face alignment和face attribute prediction上进行了测试。这三个任务的标签通常难以获得。在face parsing和face alignment中超过sota方法。
  5. 本文贡献:1)通过大量实验,在多个人脸任务上,探索了以visual-linguistic方式学习transferable visual models。2)提出了FaRL,它同时提取了low-level和high-level特征,相较其他pre-training approaches,在人脸任务上表现更佳。

近期工作

  • Visual Representation Learning:在ImageNet上预训练的分类模型,在诸多任务中都有提升和应用。预训练大Transformer-based 模型在NLP中表现极佳,并给视觉特征学习带来了许多启发。最关键的工作时contrastive loss:衡量增强图片对在特征空间中的相似性。
  • Facial Representation Learning:1)基于标注数据的训练,由于模型参数多,可能会导致过拟合。pre-training在few-shot learning中表现良好,并且可以帮助减少过拟合。但是人脸领域的预训练方法还没有被充分探索。2)预训练模型学习到的特征表示可在多个下游任务中使用,适合应用在资源受限的移动设备上。3)前人工作[pre-training strategies and datasets for facial representation learning],探索基于人脸的unsupervised pre-training,本文则是在研究基于人脸的weakly-supervised pre-training。

FaRL

  • Visual Linguistic Face Data:本文使用RetinaFace从LAION中筛选有人脸的图片,然后从置信度高于0.9的图片集中随机筛选两千万张人脸图片。筛选后的数据被命名为LAION-FACE,其样本和分布如下图所示:

[CVPR‘22 FaRL] General Facial Representation Learning in a Visual-Linguistic Manner_第1张图片

  • Image-text Contrastive Learning:考虑image-text对{T, I},E_I表示图片Transformer-based encoder,E_T表示文本Transformer-based encoder。{f_cls, f_1, f_2, ..., f_N} = E_I(I),{f_eos, f_1, f_2, f_M} = E_T(T)。通过一个映射头可得:eI = P_I(f_cls),eT = P_T(f_eos)。对比损失如下:

[CVPR‘22 FaRL] General Facial Representation Learning in a Visual-Linguistic Manner_第2张图片

  • Masked Image Modeling:image-text对比学习可以学习到visualizable文本的语义特征表示。为了增强特征表达,本文新增了一个masked image modeling task,输入图片部分会被mask掉,让模型根据masked patches预测visual tokens。简单来说,图片中masked-patch会被替换为learable vector。同时,本文使用discrete variational autoencoder将图片中的每个patch编码为1-V的某个整数。本文希望cls(E_MIM(E_I(learable vector))),可以正确预测masked patch的编码,其中E_MIM是一个small Transformer。基于此,损失表示为:

  • FaRL整体流程如下:

[CVPR‘22 FaRL] General Facial Representation Learning in a Visual-Linguistic Manner_第3张图片

  • Pre-training Details:1)模型结构:E_I是一个l2-layer 768-width visual Transformer ViT-B/16 (87M,输入为224x224)。输入图片被首先切分为14x14的patch。一个learnable cls token被用于表示图片的196的embeddings,最终会加上197个positional embeddings。E_T则是一个l2-layer 512-width和8-head的Transformer(63M,输入text token数量固定为77,长会截断,短会padding)。cls和eos token会被映射到512维。

实验

  • Setup:本文同时使用E_I最后层和中间层的输出。E_I总共有12层,本文使用其中的{4, 6, 8, 12}层。
    • 对face attributes recognition:对每一层,使用:1)f_cls;2)non_cls token features的均值;3)non_cls token features的global max-pooling。这些特征经过layer-normalized,再用一个learnable weights将他们combined到一个vector,然后用于分类;
    • 对face parsing:non-cls tokens有对应的image patches,因此可以reshape到2D feature map(14 x 14)。本文使用UperNet将这些feature map合成最终的feature map。
    • 对face alignment,heatmap是128x128,使用soft-label cross-entropy loss。
  • Comparing with Pre-trained Transformers

[CVPR‘22 FaRL] General Facial Representation Learning in a Visual-Linguistic Manner_第4张图片

  • Comparing with State-of-the-Art FaceMethods
    • 其中,FaRL是指pre-trained backbone是冻结的;FaRL_ft是指在下游任务中fully fine-tuned;FaRL_ft^448是指输入从224提升至448。

[CVPR‘22 FaRL] General Facial Representation Learning in a Visual-Linguistic Manner_第5张图片

你可能感兴趣的:(人脸,人工智能)