Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision

abstract

随着卷积神经网络的发展,面部检测器的性能得到了很大的提高。然而,面部探测器检测微小,遮挡或模糊的面部仍然具有挑战性。此外,大多数人脸探测器不能精确定位人脸位置,也无法达到高交会(IoU)分数。我们假设内部问题是监管信息的使用不充分以及CNN中各级特征地图的语义和细节之间的不平衡,即使使用特征金字塔网络(FPN)[15]。在本文中,我们提出了一个新的单镜头人脸检测网络,名为DF 2 S 2(特征融合和分割监督检测),它在ResNet-50上引入了更有效的特征融合金字塔和更有效的分割分支[10]处理上述问题。具体来说,受到FPN和SENet [11]的启发,我们将来自更高级别特征地图的语义信息应用为上下文提示,以通过空间和渠道方式的注意风格来增强低级特征地图,从而防止细节被过多的语义所覆盖并使语义和细节相互补充。我们进一步提出了一种语义分割分支,以便在以自我监督的方式应用注意机制的同时最好地利用检测监督信息。分段分支由弱分段地面实况(不需要额外注释)以分层方式监督,在推理时间中弃用,因此它不会损害推理速度。

1.introduction

最近,物体检测借鉴了ImageNet [14]预训练模型作为图像分类的主干,并获得了显着的改进。 对于图像分类的任务,只需要语义来识别类别,特征映射在CNN中更深入地拥有更多的语义信息和更少的详细信息。但是,语义和细节都需要面部检测器来检测不同位置的面部。 各种尺度和特征。 因此,FPN [15]提出了一种分而治之的原则,即收集不同尺度的对象并将其分布到不同的要素层,并附加自上而下的架构以保持高空间分辨率和语义信息。
我们观察到FPN通过将较高级别的特征映射的变形添加到较低级别的特征映射来获得较低级别层次的语义丰富,这可能导致较高级别特征映射的过多语义损害较低级别特征映射中的细节。如在[35]中可以看出,语义表示多个语义有意义的模式,其接受日提交的较大,而细节表示基本的视觉图案,其接受日提交的是smaller.Intuitively,它们将在加法方式熔合语义和细节上作出时的冲突。因此,特征融合的关键是防止不同特征图之间的冲突和转换过程中的信息丢失。为了在较低层次上获得语义丰富,同时防止细节被过多的语义所覆盖,我们提出了一种新颖的特征金字塔结构,以空间和渠道方式关注方式融合更高级别的特征图和更低级别的特征图。 。更具体地说,我们将更高级别特征映射的语义信息作为上下文线索应用于元素明智地乘以更低级别的特征映射。我们通过应用转置卷积(也称为反卷积[36])来转换特征映射,进一步避免了语义信息的丢失
其次,大多数工作将检测任务划分为分类任务和回归任务,两者都处理预先设定的锚点。当锚点与对象不匹配时,对象将被忽略,浪费了检测监督信息,使得优化不是最理想的。因此,锚定分配策略决定了基于锚点的人脸检测的性能上限。
在本文中,为了补充锚定分配策略和最佳利用检测监督信息,我们引入了一个有效的分割分支,如[18]。 以分层方式利用边界框分割地面实况训练分割分支。 分段分支可以帮助网络从对象区域学习更多的判别特征,这已经在[25]中以自我监督的方式被证明是有帮助的。 我们在训练阶段使用分段来应用注意机制 - 一种动态特征提取器,它结合了多次上下文,因为CNN特征是自然的空间,通道和多层[4],并且不会有额外的参数 推理时间。 我们在WIDER FACE [32]基准测试中进行了大量实验,以验证我们提出的结构的功效。

3. Detection with Feature Fusion and Segmentation Supervision

3.1. Overall architecture


2

我们的目标是学习更多具有辨别力的层次特征,并在各个层面上使用丰富的语义和细节来检测硬面,如微小的面部,部分遮挡的面部等。图2说明了我们提出的具有特征融合金字塔和分割分支的网络。 为了获得强大的通用性,我们将广泛使用的ResNet-50视为主干CNN架构并模拟S3FD [39]来构建我们的单次多尺度人脸检测器。
首先,我们基于来自ResNet-50的四层{res2 / 2,res3 / 3,res4 / 5,res5 / 2}构建我们的特征融合金字塔结构(在图2的左上部分为白色)。 该结构从这些层中获取四个特征映射作为输入,并生成四个相应的新特征映射,其中增加了语义和{FFP 2,FFP 3,FFP 4,FFP 5}的详细信息(在左下角突出显示为蓝色特征映射) 如图2所示,其空间分辨率和通道数分别与输入特征图相同。 为了获得更大的感受野来检测更大的面部,我们只需连续两次最大化FFP 5特征图,以获得{FFP 6,FFP 7}的额外两个特征图。 六个检测特征图有分别为{4,8,16,32,64,128}的stride。 如图2所示,在FFP n(范围从2到7)层的特征图上执行检测和分割。
在检测分支中,分类子网应用四个3×3卷积层,每个卷积层具有256个滤波器,接着是具有K×A滤波器的3×3卷积层,其中K表示类的数量,A表示每个位置的锚点数。 对于面部检测K = 1,因为我们使用sigmoid激活,并且我们在大多数实验中使用A = 6。 此子网中的所有卷积层共享所有金字塔等级的参数,以加速参数的收敛。 回归子网与分类子网相同,只是它终止于具有线性激活的4×A卷积滤波器。
为了增强分类子网和回归子网之间的相关性并改善语义监督信息和位置监督信息的分离,除了最后一个预测层之外,在检测分支上共享卷积层的参数。
3.2. Segmentation branch
为了弥补锚定分配策略并充分利用检测监督信息,我们提出了有效和高效的分割分支。如图2的右下部所示,分段分支与分类子网和头架构中的回归子网并行。它采用FFP 2,FFP 3,FFP 4,FFP 5,FFP 6,FFP 7的特征图作为输入,与检测分支相同,并以分层方式用边界框级分割地面实况进行监督。遵循[19]和S3FD [39]的匹配原则,这些分层分割图与匹配其相应感受野的地面实况面相关联。感受野在分割分支和检测分支之间是相同的,以确保它们集中在相同范围的面部尺度上。因此,我们的分割有助于网络从面部区域学习更多的判别特征,并进一步使分类和回归的任务更容易用于检测分支,从而促进更好的优化。
我们在输入特征映射之后添加四个3×3卷积层,每个滤波器层具有256个滤波器,接着是具有K个滤波器的一个3×3卷积层,其中K表示类的数量。对于面部检测K = 1,因为我们使用sigmoid激活。为了增强分段监督信息对检测分支的影响并保留分段分支的更多参数,进一步与检测分支共享前四个卷积层的参数。对于分割预测图的无用性,在推断时间中不推荐使用分割分支。
我们优于分割分支的其他用途的是,相反应用分割预测图(如FAN [30])或中间结果(如DES [40])来激活主分支的特征图,我们将注意机制应用于自我 - 没有额外参数和激活操作的监督方式。此外,在人脸检测的边界框分割基础事实中几乎没有多余的背景区域,因为当混沌背景干扰对象区域的判别特征的学习时,面部区域通常占据边界框地面实况的大多数位置。在数学上,面部的实际分割地面实况和边界框地面实况之间的平均IoU(联合交叉点)是如此之高,以至于冗余上下文区域的影响可以忽略不计。
3.3. Feature fusion pyramids
图2说明了所提出的特征融合金字塔和特征融合块(简称为“F块”)的思想。 我们应用“F块”递归地从上到下融合不同的特征图。 在数学上,我们将特征融合方法表示为φi= F(φi+ 1,φi;θ),并详细说明我们的F如下公式:


图片.png

其中φi和φi+ 1分别代表较浅的特征图和较深的特征图。 Ψ表示高级特征映射上的转置卷积运算,θrep表示转置卷积的参数。 公式左侧的φi表示融合后新生成的特征图,并将继续参与与较低级特征映射的特征融合过程,直到最低。 元素乘法(表示为·)可以被视为空间和渠道方面关注的组合,其最大化较低级别和较高级别表示之间的互信息。此外,为了增强对于检测硬面必不可少的详细信息,然后在逐元素乘法之后将低级特征图添加到先前生成的特征图。
值得注意的是,在转换到更高级别的特征映射时,我们应用转置卷积而不是上采样操作和一个卷积的组合。 一方面,如果我们首先对高级特征映射进行上采样,它将使后续卷积操作的参数数量加倍,这将损害推理速度。 另一方面,如果我们首先将高级特征映射卷积到通道数量的一半,我们可能会不可避免地丢失一些高级特征映射的语义,从而损害了特征的融合。 因此,我们利用转置卷积的优势,一步改变特征映射的空间分辨率和通道。

你可能感兴趣的:(Learning Better Features for Face Detection with Feature Fusion and Segmentation Supervision)