活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing

摘要

近年来,人们提出了多通道的方法来提高PAD系统的鲁棒性。通常,附加通道的数据是可用的,这限制了这些方法的有效性。在这项工作中,我们提出了一个新的PAD框架,它使用RGB和深度通道以及一个新的损失函数。新的体系结构使用了来自这两种模式的互补信息,同时减少了过拟合的影响。从本质上讲,提出了一个跨模态的焦点损失函数来调制每个信道的损失贡献,作为单个信道置信度的函数。在两个公开的数据集上进行的广泛评估证明了所提方法的有效性。

Introduction

在这项工作中,我们从两个不同的方向来解决这个问题。首先,我们使用一个多头架构,它遵循后期融合策略来结合不同的信息渠道。我们没有将表示连接到一个联合的最终节点中,而是为单个分支和联合分支分别保留三个不同的头,这可以看作是建筑正则化的一种形式。所提出的架构如图所示。1.这使我们能够提供一种监督个别渠道和联合表示的方式,以确保在个人和联合分支中学习稳健的表示。其次,我们提出了一个跨模态焦点损失函数来监督基于信道置信度的损失信道。
本项工作的主要贡献如下:
提出了一种对同步捕获的RGB-D样本进行操作的帧级RGB-D人脸PAD方法。
提出了一种新的跨模态损失函数-焦点损失(CMFL),可用于监督多流体系结构中的单个通道。
虽然该模型是针对多通道场景进行训练的,但它也可以通过使用与可用通道对应的头部的分数来与单个通道一起进行部署。
我们在两个由各种具有挑战性的看不见攻击组成的公开数据集中展示了提出的框架的有效性。

Proposed approach

预处理

PAD管道作用于裁剪过的人脸图像。对于RGB图像,预处理阶段包括使用MTCNN[32]框架的人脸检测和地标定位,然后是对齐。检测到的面通过使眼睛中心水平,然后将其大小调整到224×224的分辨率来对齐。对于深度图像,使用使用中值绝对偏差(MAD)[27]的归一化方法将人脸图像规范化为8位范围。来自RGB和深度通道的原始图像已经被空间注册,以便相同的变换可以用来对齐深度图像中的面。

网络结构

从现有的文献中可以看出,多通道方法对广泛的攻击具有鲁棒性。一般来说,有四种不同的策略来融合来自多个信道的信息,它们是1)早期融合,这意味着这些信道被堆叠在输入层级(例如,MC-PixBiS[18])。第二种策略是后期融合,这意味着来自不同网络的表示在后期类似于特征融合(例如MCCNN[17]),第三种策略是分数级融合,单个网络对不同通道的单独进行训练,分数级融合在每个通道的标量分数上进行融合。第四种策略是一种混合方法,将多个层次的信息如[28]。
虽然多个通道可以在各种攻击下表现得很好,但它们往往过度适合于已知攻击*源代码:当所有通道一起使用并作为一个二进制分类器训练时,接受时将可用。为了避免这种情况,我们提出了一种遵循晚期融合策略的多头架构。
该网络的架构如图所示。1.本质上,该体系结构由一个双流网络组成,它具有组件(RGB和深度)通道的独立分支。来自这两个通道的嵌入物被合并起来,形成了第三个分支。完全连接的层被添加到每个分支中,以形成最终的分类头。这三个头由一个损失函数共同监督,该函数迫使网络从单个信道学习识别信息以及联合表示,减少了过拟合的可能性。多头结构也使得即使在测试时缺少频道也可以执行得分,这意味着我们可以单独使用RGB分支(只是使用RGB头的得分),即使网络在RGB-D上进行训练。
活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing_第1张图片
在RGB-D上进行了训练。这些分支机构由Huang等人提出的丹麦网体系结构(密度网161)的前8个街区组成。[19]。在DenseNet架构中,每一层都连接到其他每一层,减少了消失的梯度问题,同时减少了参数的数量。我们使用来自图像网络数据集的预训练权重来初始化单个分支。RGB和深度信道的输入信道数已将RGB和深度信道分别修改为3和1。对于深度分支,使用三通道权值的平均值来初始化第一层中修改后的卷积核的权值。在每个分支中,在密集层之后添加一个全局平均池(GAP)层,以获得384维的嵌入。RGB和深度嵌入被连接起来,形成关节嵌入层。一个完全连接的层,然后添加一个乙状激活,以形成框架中不同的头。在训练时,每个头部都由一个单独的损失函数来监督。在测试时,使用来自RGB-D分支的分数作为PAD分数。

损失函数

Cross Modal Focal Loss function (CMFL )

单独监督各个分支可能不会产生稳健的决策边界。解决这个问题的一种方法是使用来自当前分支和另一个分支的预测概率来改变每个分支中样本的损失贡献。我们提出了一个跨模态的焦点损失函数来监督单个信道,它根据当前的和替代信道的置信度来调制损失函数。
对于每个分支,可以正确分类的样本应该在分数空间中被良好地分离。与此同时,我们鼓励个别部门在没有足够的歧视性信息时产生不确定的分数,而不是过度适合训练数据中的某些统计偏差。然而,这只适用于当其他分支能够自信地正确地分类样本时。如果我们在单个分支上使用BCE,损失将严重惩罚那些无法通过特定信道获取有效信息的样本。在这种情况下,模型可能会开始过度拟合数据集中的偏差,以最小化损失函数,从而导致过度拟合模式。
为了避免这种情况,我们提出了跨模态焦距损失(CMFL)来监督单个通道。其核心思想是,当其中一个通道能够以高置信度正确地分类样本时,就可以减少样本在另一个分支的损失贡献。如果通道能够自信地对样本进行正确分类,那么我们不希望其他分支进一步惩罚模型。
活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing_第2张图片
活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing_第3张图片
这意味着权值函数取决于另一个分支的概率。现在将提出的损失函数作为辅助监督,最小化的总体损失函数为:
在这里插入图片描述
对于本研究,我们已经将λ的非最优值设置为0.5。交叉熵的损失曲线和拟议的损失如图2所示。当其他分支的概率为零时,则损失等价于标准交叉熵。当另一个分支能够正确地分类样本时,损失的贡献就会减少。即,当攻击实例CNNp被网络CNNp错误分类时,除非模型CNNq具有高置信度,否则对网络CNNp进行分类。当w(p、q)→1时,调制因子趋于为零,这意味着如果有一个通道能够完美地进行分类,那么另一个分支的惩罚就更小。此外,聚焦参数γ也可以适用于改变损失曲线的行为。我们在所有的实验中都使用了经验得到的γ=3值。在不失去一般性的情况下,该框架也可以扩展到其他多通道分类问题。
活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing_第4张图片
我们在训练阶段用随机水平翻转进行了数据增强,概率为0.5。使用Adam优化器将组合损失函数最小化。学习率为1×10−4,权重衰减参数为1×10−5。我们使用了64的小批量,网络在GPU网格上训练了25个。在模型的评估过程中,使用RGB-D头部的分数来计算最终的PAD分数。所提出的架构有约6.39M的参数和约9.16M的GFLOPS。使用PyTorch库将架构和培训框架实现

Experiments and Results

我们为实验使用了两个公开的数据集,即WMCA和HQ-WMCA,它们包含了广泛的二维、三维和部分攻击。
综上所述,新提出的多头架构本身比其他基线提高了性能。CMFL损失的增加进一步提高了WMCA和HQ-WMCA数据集的性能。
我们在WMCA和HQWMCA数据集进行了实验,特别是一次性协议,以评估对看不见攻击的鲁棒性。研究结果详见论文。

Ablation studies

活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing_第5张图片
来自图5,可以看出,RGB头的攻击比深度通道更紧凑。在深度通道中,分类攻击比较困难,复杂的分布就会向左移动。这也可以在深度通道攻击的分数分布中看到,即攻击得分虽然没有我们想要的那么低,但是,损失并没有推动深度分支对所有攻击进行正确的分类,而且在深度通道包含歧视性信息的攻击上表现得很好。看看最后的“RGB-D”部分,可以看到,提议的损失函数使用来自单个通道的联合表示使分类具有鲁棒性。总而言之,所提出的框架鼓励各个分支对由其他分支自信分类的攻击产生不有信心的分数。以这种方式学习的联合分支的判别表示,得到了一个鲁棒的PAD系统。

跨数据库评估 Cross database evaluation

为了评估跨数据库场景下的鲁棒性,我们在WMCA和HQ-WMCA中训练的模型之间进行了跨数据库实验。这种评估同时相当于交叉传感器和看不见攻击,这比典型的交叉数据库评估更具挑战性。WMCA数据库使用Intel真实感SR300相机,它同时返回RGB和深度流。智能感知SR300使用点图案投影进行深度计算。而在HQ-WMCA中,RGB通道是使用高质量的激光acA1921-150uc相机获得的,深度图像是使用IntelRealSenseD415(使用立体声计算深度)。传感器与这些数据集中使用的传感器之间的质量不匹配会导致性能下降。交叉数据集测试的结果列在表中。5.这些模型在每个数据集的最大测试协议上进行训练,并在其他数据集的开发和eval集上进行评估。为了实现完整性,我们报告了数据库内部和跨数据库的性能。还可以看到,在目标数据集中性能更好的方法,在源数据集中的性能更差
活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing_第6张图片

Disscusion

从WMCA和HQ-WMCA的实验中可以看出,所提出的方法优于最先进的方法。我们还表明,在训练时有多个渠道的情况下,所提出的方法是有用的。尽管所提出的方法在数据集内场景中工作得良好,但跨数据库的性能需要进一步改进。随着未来的工作,可以开发更多的预处理和数据增强策略,以缓解数据集之间的差异,以提高跨数据库的性能。虽然我们为本研究选择了RGB和深度通道,但主要是由于由这些通道组成的现成设备的可用性,但将本研究扩展到其他通道的组合,例如RGB-红外和RGB-热,也是微不足道的(可以的)。

Conclusions

在这项工作中,我们提出了一种新的RGBD表示攻击检测架构,也适用于其他多通道分类问题。此外,我们还提出了一种新的跨模态焦点损失函数,它可以用于双流网络。所提出的跨模态焦点损失函数基于单个通道的置信度来调制样本的损失贡献。所提出的框架可以简单地扩展到多个通道和不同的分类问题,其中仅来自一个通道的信息不足以进行分类。这种损失迫使网络学习组件信道的互补性、鉴别性和鲁棒性表示。框架的结构允许使用所有可用通道训练模型,并使用通道子集进行部署。在两个公开的数据集上进行的广泛评估证明了所提方法的有效性。

你可能感兴趣的:(计算机视觉,机器学习)