动态区域感知卷积(DRConv)

https://mp.weixin.qq.com/s/VAUEFklRnbDj54TfEdv96w

本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域。标准卷积层通常是增加滤波器的数量以提取更多的视觉信息,但这会导致较高的计算成本。

本文的DRConv使用可学习的指导将增加的滤波器转移到空间维度,这不仅提高了卷积的表示能力,而且保持了计算成本和标准卷积的平移不变性。DRConv是处理复杂多变空间信息分布的一种有效而优雅的方法,由于其即插即用的特性,它可以代替现有网络中的标准卷积。

作者在广泛的模型(MobileNet系列、ShuffleNet V2等)和任务(分类、人脸识别、检测和分割)上评估了DRConv。在ImageNet任务上,基于DRConv的ShuffleNet V2-0.5×在46M的multiply-adds计算量水平上实现了67.1%的SOTA性能,相对baseline提高了6.3% 。

Dynamic Region-Aware Convolution

论文地址:https://arxiv.org/abs/2003.12243

https://arxiv.org/abs/2003.12243v3

代码地址:未开源

CVPR2021

我们提出了一种称为动态区域感知卷积(DRConv)的新卷积,它可以自动将多个滤波器分配给特征具有相似表示的相应空间区域。这样,DRConv在语义变化建模方面优于标准卷积。标准卷积层可以增加文件服务器的数量以提取更多的可视元素,但会导致较高的计算成本。更为优雅的是,我们的DRConv使用可学习的指导将递增的通道滤波器转移到空间维度,这不仅提高了卷积的表示能力,而且保持了计算成本和标准卷积剂量的平移不变性。DRConv是处理复杂多变空间信息分布的一种有效而优雅的方法。它可以用即插即用特性代替现有网络中的标准卷积,特别是在高效网络中为卷积层供电。我们在广泛的模型(MobileNet系列、ShuffleNet V2等)和任务(分类、人脸识别、检测和分割)上评估DRConv。在ImageNet分类中,基于DRConv的ShuffleNet V2-0.5x在46M乘加水平上实现了67.1%的最先进性能,相对提高了6.3%。

1.介绍

卷积神经网络(CNNs)由于其强大的表示能力,在图像分类、人脸识别、目标检测等许多应用领域取得了重大进展。CNN强大的表示能力源于不同的滤波器负责在不同的抽象级别提取信息。然而,当前主流卷积运算在空间域中以滤波器共享方式执行,因此只有在重复应用这些运算时才能捕获更有效的信息(例如,使用更多滤波器增加信道和深度)。这种重复的方式有几个限制。首先,它的计算效率很低。其次,它会导致优化困难,需要仔细解决[12,31]。

与滤波器共享方法不同,为了对更多的视觉元素进行建模,一些研究侧重于通过在空间维度上使用多个滤波器来利用语义信息的多样性。[9,28]提出了替代卷积,在空间维度的每个像素上都有单独的滤波器,为了方便起见,我们将它们统称为局部卷积。因此,每个位置的特征将被不同地处理,这比标准卷积更有效地提取空间特征。[28,26,25]已经展示了局部卷积在人脸识别任务中的威力。虽然与标准卷积相比,局部卷积并没有增加计算复杂度,但它有两个致命的缺点。一种是带来大量的参数,这些参数与空间大小成正比。二是局部卷积破坏了平移不变性,这对某些需要平移不变性特征的任务(例如,局部卷积不适用于分类任务)是不友好的。这两种方法都难以在神经网络中广泛应用。此外,局部卷积仍然在不同样本之间共享滤波器,这使得它对每个样本的特定特征不敏感。例如,在人脸识别和目标检测任务中,存在具有不同姿势或视点的样本。因此,跨不同样本的共享滤波器无法有效地提取自定义特征。

考虑到上述局限性,本文提出了一种新的卷积算法,称为动态区域卷积算法(DRConv),该算法可以通过可学习的指令自动将滤波器分配到相应的空间维度区域。因此,DRConv具有强大的语义表示能力,并完美地保持了平移不变性。具体来说,我们设计了一个可学习的引导掩模模块,根据每个输入图像的特点自动生成滤波器的区域共享模式。区域共享模式意味着我们将空间维度划分为几个区域,每个区域内只共享一个滤波器。针对不同样本和不同区域的滤波器根据相应的输入特征动态生成,更有效地关注其自身的重要特征。”

我们的DRConv的结构如图1所示。我们应用标准卷积从输入生成引导特征。根据引导特征,将空间维度划分为多个区域。可以看出,引导遮罩中具有相同颜色的像素附着到相同区域。在每个共享区域中,我们应用滤波器生成器模块生成一个滤波器来执行二维卷积运算。因此需要优化的参数主要集中在滤波器生成器模块中,其数量与空间大小无关。因此,除了显著提高网络性能外,我们的DRConv与局部卷积相比可以大大减少参数数量,并且与标准卷积相比几乎不增加计算复杂度。为了验证我们的方法的有效性,我们在几个不同的任务上进行了一系列的实证研究,包括图像分类、人脸识别、目标检测和分割,简单地用我们的DRConv代替标准卷积。实验结果表明,DRConv可以在这些任务上获得优异的性能。我们还提供了充分的消融研究,以分析我们的DRConv的有效性和鲁棒性。

总之,这项工作做出了以下贡献:,

1.我们提出了一种新的动态区域感知卷积算法,它不仅具有强大的语义表示能力,而且能够很好地保持平移方差特性。

2.我们专门为可学习引导掩模设计了反向传播过程,因此我们的区域共享模式是根据反向传播的总体任务损失梯度来确定和更新的,这意味着我们的方法可以以端到端的方式进行优化。

3.我们的DRConv可以通过简单地替换标准卷积而在图像分类、人脸识别、检测和分割任务上实现优异的性能,而不会增加太多的计算成本。

2.相关工作

我们从空间相关工作和动力机制的角度将我们的工作与其他方法区分开来。

空间相关卷积。

从空间相关卷积设计的角度来看,最早的启示是局部卷积。为了有效地利用图像数据中的语义信息,局部卷积[9]对每个像素应用单独的非共享滤波器,这在不需要平移方差的任务中具有很大的潜力。DeepFace[28]和DeepID系列[26,25]展示了局部卷积在人脸识别任务中的优势。这些工作说明了空间维度的局部分布是重要的。

在检测等其他任务上,R-FCN[5]使用基于区域的完全卷积网络来提取局部表示。它将输出通道放大到3×3倍,然后在不同通道中选择相应的子传感器组合成3×3块。在人员重新识别方面,Sun等人[27]应用基于部分的卷积来学习区分性部分信息特征,这也可以被视为一种空间相关卷积。

除了上述方法外,一些研究还试图改变空间特征以更好地模拟语义变化。空间变换网络[22]学习变换以扭曲特征地图,但难以训练。Jeon等人[17]介绍了一种称为主动卷积单元(ACU)的卷积单元,它可以产生不固定的形状,因为它们可以在训练期间通过反向传播学习任何形式。ACU使用学习偏移量增加卷积中的采样位置,并且偏移量在训练后变为静态。可变形卷积网络[6]进一步使位置偏移动态,然后将偏移添加到标准卷积中的常规网格采样位置。

与上述研究相比,我们的方法自适应地将空间维度划分为多个区域,并在每个区域内共享一个滤波器。此外,我们的设计还可以保持平移不变性,提取更丰富的信息。

动力机制。随着数据依赖机制[1,16,29]的流行,它强调提取更多的定制特征[22]。对动力机制的研究将许多任务推向了新的高度。得益于数据依赖机制,网络可以灵活地调整自身,包括结构和参数,以自动适应各种信息,提高神经网络的表示能力。

一些方法[2,32]表明,空间维度上的不同区域在表征学习中并不同等重要。例如,重要区域的激活需要被放大,以便在正向传播中发挥主导作用。SKNet[19]设计了一个有效的模块,在通道注意的基础上明智地选择合适的接收野,并获得更好的性能。它动态地重组网络,以便在扩张的卷积中获得不同的感受野[34,35]。在语义分割中,[36]对像素组进行关注,以弥补SENet中空间信息的不足,[15]在每个像素及其周围像素之间建立链接,以捕获重要信息。注意机制被设计成通过可学习的方法动态校准前向传播中的信息流。

从动态权重的角度来看,CondConv[33]通过几个权重的动态线性组合来获得动态权重。每个样本的专门卷积核是以类似于专家混合的方式学习的。在空间域中,为了处理对象变形,可变形核[8]直接对原始核空间进行重采样,以适应有效感受野(ERF)。局部关系网络[14]基于局部像素对的组合关系自适应地确定空间维度的聚合权重。非局部[31]操作通过所有位置特征的加权和计算每个位置的响应,这可以使其捕获长期依赖性。

与上述动态方法不同,DRConv应用动态引导掩码自动确定多个滤波器的分布,以便处理空间语义的可变分布。

3.我们的方法

权重共享机制固有地限制了标准卷积来模拟语义变化,因为单个滤波器的容量很差。因此,标准卷积必须在通道维度上剧烈增加滤波器的数量,以匹配更多的空间视觉元素,这是低效的。局部卷积利用了空间信息的多样性,但牺牲了平移不变性。为了一劳永逸地解决上述限制,我们进一步提出了一种可行的解决方案,称为DRConv,如图1所示,它不仅通过在空间维度上使用多个滤波器增加了统计的多样性,而且还保持了这些具有相似特征的位置的平移不变性。

3.1. 动态区域感知卷积

我们首先简要地描述了标准卷积和基本局部卷积,然后转移到DRConv。为了方便起见,我们省略了核大小和滤波器的步长。标准卷积的输入可以表示为X∈ ru×V×C,其中U、V、C分别表示高度、宽度和通道。和S∈ ru×V表示空间维度Y∈ 输出为ru×V×O,W∈ R C用于标准卷积滤波器。对于输出特征的第o个通道,对应的特征映射为

其中∗ 是二维卷积运算。

对于基本的局部卷积,我们使用W∈ ru×V×C表示在空间维度上不共享的滤波器。因此,第o个输出特征映射可以表示为

其中,W(o)u,v,c表示像素(u,v)处的单个非共享滤波器,这不同于标准卷积。

按照上述公式,我们定义了引导掩模M={S0,···,Sm−1} 表示从空间维度划分的区域,其中在区域St、t中仅共享一个滤波器∈ [0,m− 1]. M是根据数据依赖机制从输入特征中学习的。我们将这些区域的滤波器表示为W=[W0,···,Wm−1],

其中滤波器为Wt∈ rc对应于区域St。该层输出特征图的第o个通道可以表示为

其中,W(o)t,c表示W(o)t的第c个通道,(u,v)是区域St中的一个点。需要注意的是,如果核大小大于1×1,我们在这里使用的点(u,v)对应于卷积滤波器的中心。这意味着核大小为3×3或5×5的滤波器将提取边界上相邻区域的特征。

一般来说,我们的方法主要分为两个步骤。首先,我们使用一个可学习的引导模板将空间特征划分为多个跨空间维度的区域。如图1所示,引导掩模中具有相同颜色的像素被附加到相同区域。从图像语义的角度出发,将语义相似的特征赋予同一区域。

其次,在每个共享区域中,我们使用滤波器生成器模块生成一个定制的滤波器来执行正常的二维卷积运算。自定义滤波器可以根据输入图像的重要特征自动调整。为了更好地解释我们的方法,我们主要介绍了以下两个模块:可学习引导掩模和滤波器生成器模块。可学习引导遮罩决定将哪个滤波器分配给哪个区域。滤波器生成器模块生成将分配给不同区域的相应滤波器。

3.2. 可学习引导掩膜

作为我们提出的DRConv的最重要部分之一,可学习引导掩模决定滤波器在空间维度上的分布(哪个滤波器将被分配到哪个区域),并通过损失函数进行优化。因此,滤波器可以自动适应每个输入的空间信息的变化,并且滤波器分布将相应地变化。具体而言,对于具有m个共享区域的k×k DRConv,我们应用k×k标准卷积产生具有m个通道(k表示核大小)的引导特征。我们使用F∈ ru×V×m表示引导特征,m∈ 用于引导掩模的ru×V。对于空间域中的每个位置(u,v),我们有

其中argmax(·)输出最大值的索引和Fu,v表示位置(u,v)处引导特征的向量,具有m个元素。因此,引导遮罩中的值从0到m不等− 1并指出应在相应位置使用的滤波器的索引。

为了使导向掩模可学习,我们必须得到产生导向特征的权重梯度。然而,导向特征没有梯度,导致相关参数无法更新。因此,我们以另一种方式为引导特征设计近似梯度,如图2(a)所示。我们将详细解释正向和反向传播。

正向传播:

由于我们有等式(4)中的引导掩模,我们可以得到每个位置(u,v)的滤波器Wˆu,v作为流动:

其中WMu,v是滤波器[W0,···,Wm]之一−1] 由G(·)和Mu生成,v是位置(u,v)处引导特征F的通道尺寸最大值的索引。这样,m个滤波器将与所有位置建立对应关系,并且整个空间像素可以划分为m个组。这些使用相同滤波器的像素具有相似的上下文,因为具有平移不变性的标准卷积将其信息传递给引导特征。

反向传播:

如图2(a)所示,我们首先引入Fˆ,它是在反向传播中对引导掩模的一个热形式(例如,μ,v=2,m=5,μ,v的一个热形式是[0,0,1,0,0])的替换,

式(6)为Softmax(·)函数,用于引导特征F穿过通道尺寸。在SOFTmax操作下,我们期望Fˆj u,v尽可能接近0或1。结果,Fˆj u,v和引导掩模的一个热形式之间的间隙变得非常小。此外,式(5)中的Wˆu,v可视为滤波器[W0,··,Wm]−1] 乘以Mu,v的一个热形式,可近似为[Fˆ0 u,v,··,Fˆm−1 u,v]。那么Fˆj u,v的梯度可以通过式中h,i表示点积,5·L表示张量相对于损失函数的梯度得到。如图2(a)所示,等式(7)是等式(5)的近似反向传播。

其中o表示元素对元素的乘法,等式(8)正好是等式(6)的反向传播。如果我们不设计特殊的反向传播,SGD无法优化相关参数,因为函数argmax(·)是不可微的,并且会阻止梯度的传播。因此,SOFTMAX(·)函数被用作反向传播中argmax(·)的近似替换,它是可微的,将缩小两个函数输出之间的差距。更重要的是,我们可以利用它将梯度转换为引导特征,从而优化引导掩模。

3.3. 动态滤波器:滤波器生成器模块

在我们的DRConv中,多个滤波器将分配给不同的区域。滤波器生成器模块用于为这些区域生成滤波器。由于不同图像之间特征的多样性,跨图像的共享滤波器不足以有效地关注图像自身的特征。例如在人脸识别和目标检测任务中具有不同姿势和视点的图像,需要定制哪些特征来关注每个图像的特定特征。

按照上面使用的符号,我们将输入表示为X∈ 滤波器发生器模块的ru×V×C和G(·),主要包括两个卷积层。m个滤波器表示为W=[W0,···,Wm−1] 并且每个滤波器仅在一个区域Rt中共享。如图2(b)所示,为了获得核大小为k×k的m个滤波器,我们使用自适应平均池将样本X降到大小为k×k。然后我们应用两个连续的1×1卷积层:第一层使用sigmoid(·)作为激活函数,第二层使用group=m不使用激活函数。滤波器生成器模块可以增强捕获不同图像特定特征的能力。如图2(b)所示,卷积滤波器分别基于每个样本的特征进行预测。因此,每个滤波器都可以根据各自的特性进行自动调整。

4.实验

在本节中,我们将通过将我们提出的DRConv嵌入现有的流行神经网络(包括ShuffleNet V2[21]和MobileNet系列[13,24])来证明其有效性。我们将DRConv与ImageNet[23]、MS1M-V2[10]和COCO上现有的最新技术在图像分类、人脸识别、目标检测和分割方面进行了比较。除非另有规定,DRConv的所有实验均基于8-可学习区域(即m=8)。

4.1. 分类

ImageNet 2012数据集[23]是一个被广泛接受的权威图像分类数据集,由128万张训练图像和1000个类别的50k验证图像组成。按照主流工作,所有模型都在整个训练数据集上进行训练,并通过单作物top-1验证集精度进行评估。对于训练和评估,输入图像分辨率为224×224。训练设置如下[21],我们实验中的所有模型都经过240个时期的训练,学习率从0.5开始,线性下降到0。

为了证明DRConv的有效性,我们将DRConv与最先进的方法进行了比较,包括[8,33]。结果如表1所示。例如,在第一列中,CondConv-ShuffleNetV2表示ShuffleNetV2中的所有1×1标准卷积都被CondConv替换[33]。对于基于DRConv的模型,我们用DRConv替换主干中的所有1×1标准卷积。可以看出,在计算成本相当的情况下,DRCONVShuffleNet V2在0.5倍和1倍尺度下分别比ShuffleNet V2获得6.3%和3.6%的增益。DRConv-MobileNetV2比MobileNetV2获得3.7%的增益,DRConv-MobileNetV1比基线MobileNetV1获得4.9%的增益。我们还通过使用较少的计算成本来评估我们的方法,并发现我们在使用较少的计算方面仍然比CondConv有优势,如标记为的模型所示∗. 这些实验结果表明,基于DRConv的网络不仅比基线有很大的改进,而且比最新的方法有很大的改进,证明了我们方法的有效性。

作为其他一些任务的基础,分类需要提取尽可能多的信息来预测图像的标签,因为ImageNet数据集中有大量的类别。传统的大型网络由于其巨大的深度和广度,可以实现最先进的状态。对于实际应用中的高效网络,在有限的深度和宽度约束下,需要提高提取有用信息的效率。因此,我们设计了DRConv,以充分利用空间信息的多样性,在不增加额外计算成本的情况下,增强表示能力。空间信息的多重过滤策略意味着它可以匹配更多的信息模式。

4.2. 人脸识别

我们使用MobileFaceNet[3]作为主干网,它只有1M个参数和189M个MADD,输入大小为112×96。为了保持训练的稳定性,在我们的实现中,我们将Arcface损耗[7]替换为AM Softmax损耗[30]。我们用于训练的数据集是MS1M-V2,它是一个大规模人脸数据集,包含85k名人的580万张图像。它是MS-Celeb-1M数据集[10]的半自动改进版,由100k身份的1M照片组成,并有大量嘈杂的图像或错误的ID标签。我们用于评估的数据集是MegaFace[18],其中包括1M张60k身份的图像作为库集,100k张来自FaceScrub的530个身份的图像作为探测集。出于同样的原因,它也是通过手动清除的改进版本。

培训和评估:我们使用动量为0.9的SGD优化模型,批量大小为512。我们为420k次迭代训练所有模型。学习速率从0.1开始,在252k、364k和406k迭代时除以10。权重衰减的设置如下[3]。对于评估,我们使用人脸识别度量作为评估指标,该度量是指MegaFace上排名1的准确度。

为了验证DRConv的有效性,我们将DRConv与几种相关方法进行了比较。基于MobileFaceNet主干网,我们简单地用DRConv替换所有瓶颈块中的1×1标准卷积。如表2所示,DRConv MobileFaceNet的性能比基线高出4.9%,比CondConv高出1.4%。为了进一步的比较,我们选择了局部卷积算法,该算法适用于人脸识别,但需要大量的参数。在设备内存的限制下,我们在最后三层应用了局部卷积。DRConv-MobileFaceNet比Local-MobileFaceNet(在MobileFaceNet中使用局部卷积)的准确率高1.3%,进一步表明了我们提出的DRConv的优越性。由于人脸数据集中局部统计信息的空间平稳性,DRConv的引导掩码模块可以学习到清晰的语义模式。如图3所示,面部组件出现在这些引导掩膜中。

4.3. COCO目标检测与分割

我们进一步评估了DRConv在目标检测和分割方面的有效性。我们使用COCO数据集,该数据集由80k列车图像和40k val图像组成。与以前的许多工作一样,我们在80k列车图像和35k val图像子集(不包括5k minival图像)的并集上进行训练,在此基础上评估我们的DRConv。

在实验中,我们使用DetNAS-300M[4]和Mask R-CNN[11]框架,以FPN[20]和4conv1fc盒式磁头为基础来评估我们的方法。权重分别由在ImageNet数据集[23]上训练并用作特征提取器的ClsNASNet[4]和ResNet50[12]的参数初始化。在DetNAS-300M中,训练设置如下[4]。在Mask RCNN中,头部中可能对象的建议数设置为512。我们在8GPU上训练检测和分割网络,批量大小为16,迭代次数为180k。开始时,我们用因子0.33预热网络,进行500次迭代。在训练过程中,我们使用学习率0.2,并在120k、140k和150k迭代时将学习率衰减0.1倍。

我们的目标是评估当我们用DRConv替换DetNAS-300M主干中的1×1标准卷积和掩模R-CNN FPN中的两层时的效果,因此性能的任何改善都可以归因于我们的DRConv的有效性。此外,我们将4-learnable-region、8-learnable-region和16-learnable-region设置应用于DRConv,以分析不同区域数的影响。

将我们的DRConv与标准卷积进行比较的结果如表3所示。从结果可以看出,DetNAS-300M中有8个区域的DRConv可以显著提高检测性能1.8%,根据COCO的标准AP度量,只有掩模R-CNN FPN中有16个区域的两个DRConv层可以提高检测性能1.2%,提高分割性能1.1%。DRConv利用引导掩码将空间维度划分为多个组,以便每个滤波器可以关注特定的上下文。另一方面,类似噪声的背景可以很容易地从其他感兴趣的区域中分离出来,并且大多数滤波器可以集中在重要区域。结果表明,对于不同数量的共享区域,当我们将空间维度划分为更多的区域时,DRConv可以获得更好的性能。划分的区域越多,每个组的上下文就越专用,每个滤波器就越容易优化。

5.烧蚀研究

消融实验在分类(ImageNet 2012[23])和人脸识别(MS1M-V2[10])上进行。实验设置与第4节相同。在这一部分中,我们分析了可学习引导掩码的语义信息,以及不同模型大小的影响。补充材料中分析了不同区域数和不同空间大小对DRConv的影响。

动态引导掩模的可视化。

为了探索该方法中可学习引导蒙版的机理,我们分别在分类任务和人脸识别任务中对图像进行m=4的引导蒙版可视化。图3显示了我们的方法成功地将滤波器分配给具有相同语义的区域。换言之,我们可以了解不同区域根据图像语义使用不同的滤波器,这是合理和有效的。由于更清晰的语义表示,引导掩码可以自动在更深的层中形成更少的区域。

需要注意的是,引导掩模完全由空间信息分布决定,因此一个区域可能是连接点或离散点。浅层中的区域点往往是离散的,因为特征与输入图像的详细上下文更相关。深层区域的点往往是连接的,因为这些点有一个更大的感受野,这与语义信息更相关。

不同型号。

除上述研究外,我们还对DRConv在不同模型尺寸下的性能进行了烧蚀研究。在ImageNet数据集上,我们对ShuffleNet V2的[0.5×、1×、1.5×、2×]和MobileNet V2的[0.25×、0.5×、0.75×、1×]进行了实验,以分析我们的DRConv的有效性。从图4所示的实验结果来看,使用DRConv的小型模型将比大型模型获得更多的奖金。显然,小模型在每一层中的输入通道和滤波器较少,并且不能为下一层提取足够的特征。通过用DRConv取代标准卷积,小型模型将显著提高其建模语义信息的能力,从而获得更好的性能。

6.结论

在本文中,我们提出了一种新的卷积,称为动态区域感知卷积(DRConv),该卷积由空间域中的部分滤波器共享激励,并成功地保持了平移不变性。因此,我们提出的DRConv可以完全替代任何现有网络中的标准卷积。我们设计了一个小的可学习模块来预测引导掩码,用于指导滤波器的分配,从而保证区域内相似的特征可以匹配相同的滤波器。此外,我们还设计了滤波器生成器模块,为每个样本生成定制的滤波器,这使得不同的输入可以使用自己的专用滤波器。在多个不同任务上的综合实验表明了我们的DRConv的有效性,它在分类、人脸识别、目标检测和分割方面优于最新技术和其他优秀的手动设计方法。我们在烧蚀研究中的实验表明,可学习引导掩模在每个样本的滤波器分布中起着关键作用,这有助于获得更好的性能。

参考文献:

[8] Hang Gao, Xizhou Zhu, Steve Lin, and Jifeng Dai. Deformable kernels: Adapting effective receptive fields for object deformation. arXiv preprint arXiv:1910.02940, 2019.

[9] Karo Gregor and Yann LeCun. Emergence of complexlike cells in a temporal product network with local receptive fields. arXiv preprint arXiv:1006.0448, 2010. 1

[14] Han Hu, Zheng Zhang, Zhenda Xie, and Stephen Lin. Local relation networks for image recognition. In IEEE International Conference on Computer Vision (ICCV), pages 3464–3473, 2019.

[25] Yi Sun, Yuheng Chen, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation by joint identificationverification. In Advances in Neural Information Processing Systems (NeurIPS), pages 1988–1996, 2014. 1, 2  

[26] Yi Sun, Xiaogang Wang, and Xiaoou Tang. Deep learning face representation from predicting 10,000 classes. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1891–1898, 2014. 1, 2   

[28] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf. Deepface: Closing the gap to human-level performance in face verification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1701–1708, 2014. 1

[31] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7794–7803, 2018.

[36] Zilong Zhong, Zhong Qiu Lin, Rene Bidart, Xiaodan Hu,Ibrahim Ben Daya, Jonathan Li, and Alexander Wong. Squeeze-and-attention networks for semantic segmentation. arXiv preprint arXiv:1909.03402, 2019. 3

你可能感兴趣的:(动态区域感知卷积(DRConv))