[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat

Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning

paper: CVPR_2022_paper

github: GitHub - Jiahao-UTS/SLPT-master

摘要

  • Heatmap-based方法是目前Face alignment中的主流方法,然而该类方法忽略了点位之间的内在关联;
  • 本文提出Sparse Local Patch Transformer (SLPT),用于学习点位之间的内在关联;
  • SLPT的主要步骤:1)基于局部块生成每个点位的特征表示;2)基于注意力机制学习这些点位的内在关联;3)小数坐标是基于聚合特征(aggregated feature)独立预测的。
  • 本文引入了一种coarse-to-fine框架,从初始点位逐渐收敛至目标点位,这个过程中,局部块会逐渐缩小,生成细粒度特征。
  • 在COFW、300W和WFLW上达到sota;

引言

  • Heatmap regression方法的两个局限性:1)由于人脸具有规则的结构,因此人脸点位间的内在关联对人脸点位检测至关重要。而CNN更关注局部特征,导致CNN无法从全局视角捕捉点位间的内在关联;2)引入量化误差。Coordinate regression方法中,FC层帮助模型学习点位间的内在关联,但也破坏了局部特征。
  • 与DETR使用整张特张图不同,SLPT:1)基于局部块生成每个点位的特征表示;2)可学习的landmark queries用于聚合这些特征;3)基于cross-attention机制,SPLT在每层中学习自适应邻接矩阵;4)基于局部块,用一个独立的MLP预测每个点位的小数坐标。受益于局部块的使用,input token的数量可以减少很多。
  • SLPT引入了coarse-to-fine框架,与cascaded-based方法类似,SLPT从初始点位逐渐收敛至目标点位。其中,局部块基于初始点位或预测点位从图片特征图中裁剪得到,在每次迭代中会缩小1/2。

本文主要贡献

  1. 提出SLPT,该方法可以学习点位间的内在关联;
  2. 引入corase-to-fine框架,使局部块逐步收敛至目标点位附近,得到细粒度特征。
  3. 在COFW、300W和WFLW上达到sota。

方法

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第1张图片

SLPT

SLPT包含三个部分: 1)patch embedding & structure encoding;2)Inherent relation layers;3)prediciton heads。

  • patch embedding. 1)以点位为中心,从特征图上裁剪固定尺寸的局部块;2)基于线性差值,将局部块resize为K x K;3)基于CNN,映射为向量。
  • structure encoding. 可学习的相对位置参数。从结果上来看,相邻位置有较高的相似度,例如左右眼。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第2张图片

  • Inherent relation layer. 包含:1)multi-head self-attention (MSA) block;2)multi-heat cross attention (MCA) block;3)multilayer perceptron (MLP)。其中MSA用于学习landmarks queries之间的关系;MCA用于学习点位特征和landmarks queries之间的关系。

Prediction head. inherent relation layer的输出是相对局部块的局部位置。最终输出是经过MLP处理的inherent relation layer输出。最终坐标等于:局部快坐标 + 局部快相对位置坐标

Coarse-to-fine locating. 初始点位是训练集的平均脸。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第3张图片

  • Loss Function:1)对coarse-to-fine的每一步输出;2)对每一层inherent relation layer的输出,使用L2损失监督。

实验

Implementation Details. 输入图片resize到256 x 256,K = 7,有6个inherent relation layers,3步coarse-to-fine。使用了两种backbone:1)HRNetW18C;2)ResNet34。输出的特征图大小为64 x 64。

Benchmarking

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第4张图片

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第5张图片

 Ablation Study

1. coarse-to-fine:有显著效果。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第6张图片

 2. MSA和MCA:1)without MSA和MCA,直接基于点位特征回归;2)without MCA,点位特征作为queries input。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第7张图片

 3. Structure encoding:微弱提升。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第8张图片

 4. Computational complexity:跑了3次coarse-to-fine,对FLOPs的影响在可接受范围内。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第9张图片

5. Patch Size:7 x 7最佳。

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第10张图片

 6. Layer number:越多越好

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第11张图片

Visualization

[CVPR‘22 SLPT] Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relat_第12张图片

你可能感兴趣的:(人脸,transformer,深度学习,人工智能)