论文来源:知网
以下仅仅是学习过程中的部分笔记,用作自己复习。
.....
目标检测不仅需要判别图像中存在的目标的类别,还需要回归目标在图像中的位置。
特征耦合具体表现:分类和回归部分的网络共享参数,特征分布高度耦合。
分类和回归特征耦合对于目标检测算法的影响。具体表现在以下两点:
- (不一致性)分类分数与目标框回归一致性的问题,即分类分数最高的框不一定是最回归最准的框。
- (特征耦合)适用于分类的特征不一定适用于回归定位;同理,适合于定位的特征也不一定是该目标最具类别判别力的特征。
针对上述两个问题,设计了两种新颖的头部网络,对分类和回归特征进行解耦。
- 分类特征与回归预测不一致的问题,设计了一种分类回归一致性预测网络。
在分类与回归时,先对目标框进行一次回归,再提取回归后目标框中的特征进行分类,使得分类采用的特征与回归的预测输出保持一致,有效地缓解了分类分数与回归预测目标框不一致的问题。- 其次,针对 Faster RCNN 中分类回归部分存在的特征耦合问题,本文设计了一种任务解耦的特征提取方法。
本文将分类和回归部分拆分到两个子网络分布进行。
对于回归问题,为了采用坐标卷积的方式引入更丰富的空间知识。
对于分类问题,本文采用了可变形卷积,以期对于不同尺度形状的目标有更好的适应性。关键词:目标检测,特征解耦,特征一致性, 头部网络设计
......
然而,目前主流的目标检测方法在分类回归时仍存在特征耦合,不利于对目标类别和位置进行精细化预测。
以 Faster RCNN 为例,具体表现在网络中分类特征和定位特征由同一个头部网络得到,其特征是共享的。但是事实上,适用于分类的特征不一定适用于回归定位。同理,适合于回归定位的特征也不一定是最能代表这一类目标的特征,因此本文基于这一点对目标检测这一领域展开研究和改进。
......
Faster RCNN 网络相关
- Faster RCNN 网络由卷积层、RPN、ROI 池化层、分类和回归层等部分组成,其中RPN 网络是 Faster RCNN 论文中的核心贡献,RPN 通过深度网络使得生成 ROI 时的效率得到显著提高。RPN 网络的主要用途是筛选出一系列可能存在物体的区域。
- 从特征图上取得这些区域后经过 ROI 池化层后变成 ROI 特征,经过处理后,同时生成边界框相对于可能区域的偏移和相关的类别信息,不断修正后得到最终的边界框,在经过非极大值抑制(NMS)后得到最后的结果[12]。
- NMS 的存在,在边界框的回归中,对于目标的打分精度显得格外的关键。事实上,由于分类和回归的分支是分别进行的,相互之间没有约束,Faster RCNN 并不能保证边界框框的更准的目标置信度会更高,从而对于最终算法精度有影响。
Mask RCNN相关 mask-rcnn解读_lexi_qi的博客-CSDN博客_maskrcnn
令人拍案称奇的Mask RCNN - 知乎
- 在 Mask RCNN 中,使用了 Faster RCNN 的框架,可以说是在基础的特征网络后又添加了全连接的分割子网[10]。
- Mask RCNN 是一个十分灵活的框架,可以增加不同的分支用来完成不同的任务,例如目标分类、语义分割、人体姿态识别、实例分割等多种任务;在 TridentNet 中首次提出感受野对于目标检测中不同大小物体的影响,进而提出了适应于多尺度的目标检测框架。
- TridentNet 使用了参数共享的方式,生成了三个分支,三个分支的唯一区别是膨胀卷积的膨胀率不同,但测试时只使用了其中的一个分支,这样可以保证不会有额外参数以及计算量的增加。
..........
在处理分类和回归任务的关系时,仍存在以下两个不足:
- 分类分数与回归分数一致性的问题。
(深层原因)
具体的,非极大值抑制(NMS)是目前目标检测方法中重要的后处理方法。以传统的目标检测方法为例,通常会采用多尺寸的滑动窗口,对于图片中的一个物体可能对应多个预测框及置信度。在非极大值抑制中,除了置信度最高的检测框,其余与预测框重合度大于一定阈值的,该均视为假阳性预测结果,这就是非极大值抑制的原理。到目前为止,NMS 在目前基于深度学习的方法(如Faster RCNN 中)中仍被广泛使用。
(举例说明)
然而,在 Faster RCNN 中使用了 NMS,会引出预测框置信度和打分的一致性问题。
具体的,NMS 中是以分类置信度(分类分数)对预测框进行排序,并保留置信度最高的那一个框,但是分类分数高的框不一定是回归准的框。
(相关解决方案)
为了解决这个问题,出现了一系列以 IoU Net 为代表的一系列方法[24],这些方法的思想是在分类/回归分支之外额外添加 IoU(Intersection over Union,标注框和预测框的交并比)分支,用来对 IoU 进行打分。
在预测过程中,使用 IoU 的分数替换置信度的分数,从而提升算法精度。这种做法有一定合理性,但是本质上只是把目标存在与否的 0-1 标签替换成了以 IoU 为基础的连续标签,网络结构与输入特征都没有变,所以预测并不准确,精度的提升也十分有限,另外,IoU 分支也带来了极大的运算量,难以部署在实际场景下。- 分类特征和回归特征耦合的问题。
在目标检测任务中,我们可以发现,很多图像中物体的形状是细长或者不规则的,例如飞机等。
因此,如果用边界框框住,会包含很多的背景信息,对分类造成干扰;然而,如果我们想把物体完整的框起来,又必须考虑到全局的信息,否则就会过度关注到物体的比较显著的部分,导致框位置不准确。
- 在 Faster RCNN 结构中,只是简单的把分类和回归任务放在了一起,网络结构上共用一个头部网络,导致分类特征和回归特征高度耦合,没有考虑到这两个任务的独特性。事实上,分类和回归任务的特征满足不同的分布特性,所以需要设计不同的网络结构,输入特征,和训练手段等等[25]。分类和回归是对立统一的,一方面需要准确的判断物体的位置,另一方面有需要容忍物体的尺寸以及形态的变化,现有的结构并未把两者都做到最优。
针对分类回归一致性问题中存在的两个问题,为了解决上述问题,本文提出了一种精度更高的目标识别的网络框架。
- 首先,本文注意到了之前预测框打分的问题,将分类和回归任务分为两个步骤来做,
首先使用回归部分的网络结构对边界框进行修正,将修正后的信息再返回网络中,
接着再执行分类部分的网络,这样不断的迭代,使得分类部分的打分与修正后的边界框建立了联系,精度也从本质上得到了提升。- 第二,为了解决 Faster RCNN 中分类特征与回归特征耦合的问题,我们对分类和回归网络进行了解耦,分别根据两个网络的特点进行了不同的设计,
例如对于分类任务更需要关注的局部的信息,我们使用了可变形卷积(Deformable Conv),即加入两层的全连接层将特征拉长,使得网络能同时捕捉多尺度信息,进行细粒度的识别,从而进一步保证高分的特征被保留下来为分类任务提供依据[26],
另外,对于回归任务,我们更多的关注于全局的信息,则使用了给其添加坐标卷积层(Coord Conv)的方式。
本文中由于对分类和回归进行了一个分别的设计[27],为了保持其一致性,我们还尝试了给设计的网络平行运行之前分类回归的一致性网络,这种方式是无代价的,同时也能带来相应的一些精度的提升。
针对全连接层的相关思考搜索:
1x1卷积总结一下的话就是:
1、在网络中间
1.1 第一层1x1将卷积层提取的特征进行线性组合,第二层实现了对输入的数据进行高度的非线性变换;
1.2 扩大模型容量,增加泛化性(同增加网络深度);
2、在网络末端
2.1 将提取到的特征降维映射到相应输出尺度做分类;
2.2 组合CNN提取到的特征,适配自己的数据集。关于为什么一般两个全连接层在一起连用 - Gaaray - 博客园
一些CNN网络最后为什么有两个fc全连接层? - 知乎关于为什么一般两个全连接层在一起连用_weixin_30376453的博客-CSDN博客
论文阅读:Deformable ConvNets v2: More Deformable, Better Results_Kivee123的博客-CSDN博客_deformable v2
本文的贡献可以总结为以下几点:
- 本文提出了一种更高精度的设计,将回归网络对于边界预测框的修正信息做一个反馈,使得分类网络能够学习到回归网络返回的信息,保持了边界框的定位置信度和分类置信度的一致性。
- 本文提出了对于分类任务和回归任务解耦的方式,对分类和回归任务有针对性的设计了头部网络。对于分类任务网络使其能够对于不同的图像识别更多的多尺度细粒度的局部信息便于进行分类,对于回归任务通过使用添加坐标卷积网络的方式来识别更多整体的信息,这样使得整体精度得到提升。
- 本文中因为对于分类和回归问题做了解耦处理,为了保持其一致性,另外平行的添加了原来非解耦的分类回归网络一起进行训练,这样也保持了分类和回归网络的一致性,同时又是这种方式也是不需要代价的,还能够有一些优化。
在常见的两级检测框架(例如:Fast-RCNN、Faster RCNN)中,较常用的是 ROI 池化,ROI 池化的作用是根据候选框的位置坐标在特征图中将相应的区域池化成为固定尺寸的特征图以便用于后续的分类以及框的回归操作。ROI 池化最初是由 Ross Girshick 在2015 年提出的,实现了训练和测试的显著加速,同时还保持高检测精度。但其也有一些局限性,在 ROI 池化过程中,由于候选框的位置通常是模型回归得到的,一般来讲是浮点数,而池化后的特征图又要求尺寸固定,所以存在着两次量化的过程:
- 将候选框的边界量化成整数点坐标值;
- 将量化后的边界区域平均分割成单元,对每一个单元的边界进行量化。经过两次量化,此时的候选框已经和最开始回归的有一定的位置偏差,这样的话会影响检测或者分割的准确度。
为了解决 ROI 池化的缺点,出现了 ROI Align 这一改进的方法。ROI Align 的改进思路主要是取消量化的操作,使用双线性内插的方式获得坐标为浮点数的像素点上的图像数值,这样就能将整个特征聚集过程转变为一个连续的操作。ROI Align 在遍历取样点的数量上没有 ROI 池化那么多,但是却可以获得更好的性能,主要也是归功于解决了偏移的问题,但是也有一点需要注意的是,ROI Align 在 VOC2017 数据集上的提升效果并不如 COCO 上明显,主要是因为 COCO 中小目标的数量相对较多,而小目标对于偏移问题的影响大很多。
由于目标检测主要涉及了目标分类和目标定位两个任务,很多基于卷积神经网络的方式都存在分类置信度和定位置信度不匹配的问题。针对这个问题,IoU Net 这一方法便被提出。IoU Net 的做法是对非极大值抑制(NMS)进行优化。非极大值抑制是目标检测流程中的重要组成部分,算法主要步骤是根据分类的得分从高到低对候选框进行排序,分数最高的被选中,其他与被选中的候选框有明显重叠的被抑制,这个过程被不断递归直到所有的候选框都被遍历。如前所述,在 NMS 过程中可能会出现分类分数与回归准确度不一致的情况,单纯按照分类得分的从高到低排序来对建议框进行排序容易将最好的锚抑制,最终导致指标的下降。于是,在 IoU Net 中,除了预测分类分数和回归边界框之外,还额外为边界框预测一个 IoU。在 NMS 时,同时根据分类分数和预测的IoU 进行排序。但是也存在一个问题是,这种做法虽然能适当地优化分类回归不一致的问题,但是本质只是将目标存在与否的标签替换成了 IoU 为基础的标签。因此,如果 IoU的预测不准确,准确度的提升也很有限。
上文所提到的几种方式都是对于当前目标检测网络的准确性的优化,但是却都忽略了一个点就是在目标检测网络的分类和回归的一致性问题。在进行目标检测时,回归的网络对于候选框进行了精修,但是这一信息并没有反馈到分类网络中,分类网络依旧是对于之前的候选框进行了打分,这样就造成了分类和回归的不一致,影响到了检测网络的精度。在第三章与第四章中,将详细介绍本文中针对目前目标检测网络所存在的不足提出的创新点做详细的解释。
- 具体的,在 Faster RCNN 中的最后一部分分类和回归任务中,两者的特征由同一个头部网络得到,其特征是共用的。
- 但在回归过程中预测框会发生偏移,导致用来做分类的特征并不是预测框所在位置的特征。这种特征的偏差使得模型不能分类定位的一致性,即不能保证框得更准的候选框分类置信度也高。
- 这样一来,即使有回归非常准确的预测框,也容易在后处理过程中被 NMS 抑制,制约检测器精度的进一步提升。
- 因此,本文提出了一种特征一致的网络结构,首先在获取了 RPN 的输出后,提取 RPN 的特征,单独计算候选框的位置。随后,根据回归后的候选框的位置提取分类特征,计算分类得分,这样就保证了候选框的位置和分类特征位置完全相同,使得分类得分更准确的表征候选框的精度,在不耗费额外参数的情况下,带来了精度的提升。
本文中对于原始的 Faster RCNN 网络做了改进,如图 3-2 所示,对于本章介绍的分类回归一致性创新点设计了回归分支的反馈,设计了一致性的分类回归头部。第四章中的解耦方法,主要对分类与回归分支进行了解耦处理,在回归部分使用了 Coord ConvNet,该网络通过添加了两个通道分别记录坐标信息能够帮助网络加强对于位置的感知能力。分类分支借鉴了 Deformable ConvNet,通过添加偏移来提取更精细的特征,之后经过全连接层分配不同权重筛选出表征力较强的特征,这样对于分类能有更好的提升效果。在本章与第四章中将做详细的阐述。
第二章中介绍了 Faster RCNN 中 RPN 的网络结构。RPN 网络会筛选出一系列可能存在物体的区域,并从特征图中对应位置提取出来,经过了 ROI 池化后生成 ROI 特征,最后经过头部网络(ROI head)处理后同时输出候选框的偏移和相应的类别信息,得到最终的边界框。
然而 Faster RCNN 中实际用于分类的特征并不是候选框所在的特征,这种分类回归方式有可能引起置信度得分和候选框准确度不一致。具体原因如图 3-3 所示,图中候选框A是是经过了RPN后输出的框,B候选框是经过了回归之后的框。我们可以发现 B 候选框对应的置信度分数实际上是对 A 候选框中特征的分类打分。也就是说,回归和分类不匹配的直接原因在于:无论 B 候选框的回归做的多么准确,B 候选框的分数,不管是IoU 的得分还是分类置信度,都只是在衡量 RPN 生成的原始框的质量。预测框的分类得分对算法精度有着重要的影响,其结果与检测评价标准 m AP 密切相关。m AP(mean Average Precision)是所有类 AP 的平均。目标检测中,成功定位的预测框占 GT 的比例称为准确率(precision),成功定位的预测框占所有预测结果的比例称为召回率(recall)。给出的预测框越多,准确率就会上升,召回率下降,两者之间的精度是一个权衡的过程。为了同时考虑准确率和回召率,目标检测的最终精度一般是通过 PR(precision-recall)曲线来表征,其物理意义是 PR 曲线下面积称为 AP(average precision),若在回召率为百分之百时,准确率为 1,此时 PR 曲线下面积最大达到 1。在这个过程中,如果存在高分的 FP(false positive,置信度很高但是框的不准),就会让整条曲线下移,对 AP 影响较大。因此,置信度和框准确度的一致性问题一直是目标检测领域的热门话题。
Faster RCNN 在精度和速度上相比以前的网络有显著提升,但依旧存在分类置信度和定位置信度的不匹配问题。一方面,分类和回归分支之间不存在互相约束,所以即使回归后的候选框定位更准,也不代表其分类置信度越高。另一方面,Faster RCNN 的预测机制使得一个物体附近会出现很多预测框,需要用非极大值抑制算法(NMS)做后处理。NMS 会中保留分类得分最高的候选框,剔除与选中的候选框有明显重叠的其余候选框。在这个过程中,存在有些框的更准的目标框,由于分类得分不是最高反而被抑制的情况,于是就有了一系列改进的算法被提出。
Soft-NMS:Soft-NMS 是一种具有代表性的方法[60]。传统的贪心 NMS 算法,会在按候选框得分对候选框排序后,直接将与得分最高的候选框 IOU 大于某个阈值的其他候选框的得分置为 0。与传统 NMS 算法不同,Soft-NMS 则是基于重叠部分的大小对相邻的候选框设置一个衰减函数,而不是彻底将分数置为零。简单来说,如果一个候选框与最大得分候选框有大部分重叠,它会有很低的得分;而如果候选框与最大得分候选框只有小部分重叠,那么它的原有分数不会受到特别大的影响。
具体的,公式 3-1 是传统的 NMS 的分数重置函数,在这个公式中,NMS 用了硬阈值来判断相邻候选框是否被保留:相比于传统的 NMS,Soft-NMS 中对最高得分的候选框有高度重叠的候选框分数进行衰减,而非全部抑制,那么在检测阈值较低的情况下,该物体不会错过检测,同时,由于与最高得分候选框有高度重叠的候选框很可能是假阳性的预测结果,所以分数的衰减应该更加严重。因此 Soft-NMS 设计了公式(3-2),对于 NMS 原有分数重置函数进行的改进:
从公式中我们可以看出,当相邻候选框与最高得分候选框重叠度超过重叠阈值后,候选框的检测分数呈线性衰减。 Soft-NMS 实际是对传统 NMS 的改进,即在 NMS 过程中不删除非极大值的框,是降低其置信度,不涉及模型本身的训练,虽然在 m AP 评价指标下有一定程度精度的提升,但是并没有从本质上解决问题。
ROI Align:ROI Align 是在 Mask RCNN 论文中提出的一种区域特征聚集的方式,也是一个特征对齐方面成功的范例。具体的,在 Faster RCNN 中使用的是 ROI 池化的方式。RoI 池化的作用是利用候选框位置坐标在特征图中将相应的区域池化为固定尺寸的特征图,以便进行后续的分类和候选框回归。但是候选框位置通常是模型回归得到的,一般为浮点数,而池化后的特征图又要求尺寸固定,所以这个过程中存在两次量化,一个是将候选框边界量化为整数坐标,一个是对量化后区域平均分割的单元边界的量化,这样位置就存在了一定的偏差,在 ROI Align 中的做法是取消了量化的过程,将原本的取值使用最邻近差值转化为双线性插值,从而将整个特征聚集过程转化为一个连续的操作,带来了超过 1%的提升。ROI Align 证明了特征对齐的必要性,能够很好的解决 RoI 池化中因为使用两次量化而产生的候选区域偏差问题。但是,ROI Align 只是在区域提议阶段(RPN)考虑特征对齐,在最后头部网络进行分类和回归时并未考虑特征的一致性,因此这一部分的网络设计仍然存在改进的空间。
IoU Net:IoU Net 方法的思想是在分类/回归分支之外额外添加 IoU(标注框和预测框之间的交并比)分支,用来对 IoU 进行预测,如图 3-4 中所示。IoU Net 的网络结构与 Faster RCNN 的主要区别在于将 Roi 池化换成了 PreRoI-Pooling,加入了一个 IoU 预测器。在训练阶段,这个 IoU 预测器的输入不是 RPN 产生的 RoIs,而是对标注框的随机扰动,得到扰动后的 RoIs(Jittered RoIs),过滤掉与 GT 框的 IoU<0.5 的候选框,剩下的候选框作为输入。在预测过程中,从候选框的集合中依次选出预估 IoU 最高的候选框,然后也选出 IoU 高于一定阈值的候选框,并记录这些候选框中最高的分类得分,最后选出的候选框是 IoU 最大的候选框,同时选用与该候选框有重叠的候选框中分类得分最高的分类分数作为得分,本质上来讲是候选框与分类得分的重新分配。
IoU Net 的方式是用 IoU 分数替换置信度分数,从而依靠更好的 NMS 提升算法精度。但事实上只是把目标存在与否的 0-1 标签换成了以 IoU 为基础的连续标签,网络结构、输入特征都没有变,因此如果 IoU 的预测不准确对于精度提升也会十分有限。此外,由图中可以看出,IoU 是一个独立的分支,这个分支带来了极大的运算量,也难以部署在实际场景下。
综上所述,本文认为回归一致性问题的原因在于分类任务的特征和预测框没有对齐,这一偏差导致分类器无法给出准确的分数,为此需要解决特征对齐问题。
针对前面所说到的分类置信度与回归置信度的不匹配问题,本文提出了下图所示的 一致性头部网络结构,从图中我们可以看出,在上图所示的原始的 Faster RCNN 中,分类和回归两个分支是相互独立分别进行的,没有互相约束,有图 3-3 所示问题。图 3-6是在本文提出的网络,首先进行回归的分支,计算候选框的位置。虚线箭头表示,根据预测框的位置在特征图上重新选取特征,之后再用新的特征进行分类分支的运算,提取分类特征并计算分类的得分。我们仍然以候选框 A、B 为例进行说明,我们可以看出,网络首先通过 RPN 得到预测框的候选框 A,再将候选框 A 送入回归头部网络,预测坐标框所在位置,得到候选框B。之后我们基于回归得到的候选框 B,反映射原图上的 B 区域,再基于 B 框进行一次ROI 池化,得到最终用于分类的特征,并送入头部网络进行分类。显然,此时分类特征与回归框所对应区域是完全一致的,保证了回归框的位置和分类特征完全相同,有效地解决了前文提及的分类回归不匹配的问题。
考虑到 Faster RCNN 的原始头部网络结构与本文提出的网络结构的异构性,我们希望进一步通过两者结构上的差异提高目标检测网络分类和回归的精度。所以我们进一步结合 Faster RCNN 的头部网络和本文提出的分类回归一致性头部网络,在训练时同时训练这两种头部网络,如下图 3-7 所示。为了保证尽可能少的在头部网络中加入额外参数,Faster RCNN 的头部网络仅在训练时使用,在测试时我们仅使用本文提出的一致性头部网络。即在测试时,相比于原始的一致性头部网络,并没有引入额外的参数,不增加计算的负担。我们将这一同时包含原始头部网络和分类回归一致性头部网络的结构称为共生头部网络(Sibling Head)。在第五章中的实验证明,共生头部网络可以在不加入额外代价的条件下提高目标检测模型的精度。
在目标检测中,分类任务和定位任务存在各自的独特性,目前的 Faster RCNN 结构共用同一个头部网络预测类别和位置,没有充分的考虑两种任务的独特性。在 2018 年COCO 挑战赛冠军夺冠技术报告中提到,分类和回归的特征满足不同的分布,两个任务的输出形式以及针对解决的问题是不同的,应该通过不同的网络结构进行特征提取。而现有的做法一般将两个任务用同一个网络结构进行处理,但并未取得两个任务的最优解。因此,本章提出了一种任务解耦的方式,为分类分支和回归分支设计不同的网络结构。使分类分支关注更多的局部信息,进行细粒度的识别;使回归分支关注全局的信息,强化空间上的联系。从而使两个任务都取得更好的效果。
在一些图像中,很多物体的形状是细长或者不规则的,当我们使用候选框将物体框出来,就必须关注全局的信息,这样势必会包含很多的背景信息,对分类产生干扰。反之,如果我们使用想得到更好的分类,就会过度关注于物体比较显著的位置,那么就容易框的不准。
如图 4-1 所示,图中网球拍成长条形,整体上是不规则的,此外,由于遮挡的存在,网球柄部分甚至不可见。当我们进行目标检测时,我们希望能够将整个网球拍框出来,但是进行分类时,对于网球拍而言,比较明显且易于分类的信息是在球拍的头部位置。然而如前文所述,由于 Faster RCNN 的 RCNN 阶段是共享卷积层参数的,这会导致分类的回归的特征高度耦合,网络无法将利于分类和利于回归的特征区分。以网球拍为例子,如果网络过分关注分类的信息,则网络中网球拍头部区域对应的特征响应值会很高,若基于此特征预测目标框,框出来的区域可能只是球拍的头部分,这样定位任务会受到很大的影响。 (到时候可以拿桥梁等例子来说明问题)
Double Head 尝试用卷积和全连接在解决这一问题[61]。Double Head 的提出来源于2018 年 COCO 物体检测冠军旷视团队,他们发现做实例分割时,使用卷积得到的候选框会比全连接的效果好,文章中提出全连接对于空间位置是敏感的,而卷积对于物体信息的提取效果更好,目前大部分的两级目标检测都是共享一种用于分类和回归的 head,这篇论文中主要研究的就是使用卷积和全连接一起使用做目标检测以提高效果。 这个网络的基本骨架(Backbone)可以使用常用的网络结构,例如 VGGNet、ResNet加上 FPN 的结构,使用 RoI 池化后输出特征图,一般的做法如下图 4-2 所示,
- (a)的做法是在特征图上连接一个全连接的分支,之后再连上两个分支分别输出候选框的位置信息和对应位置的类别信息。这个头部网络与原始的 Faster RCNN 是一致的。
- (b)的做法是在特征图后添加几个卷积操作,再连接一个全连接层之后输出分类和回归信息。
[61] Wu Y, Chen Y, Yuan L, et al. Double-head rcnn: Rethinking classification and localization for object detection[J]. arXiv preprint arXiv:1904.06493, 2019, 2: 7.
文中的 Double Head 的做法如下图 4-3 所示,回归分支中加入了卷积操作,类别分支还是使用全连接的方式。
图 4-3 是 Double Head 的原始网络,可以发现每个分支都只关注自己的任务,例如卷积只关注回归的操作,而全连接只关注分类的操作。在 Double Head 中,作者证明了图 4-3 中的结构实验结果是优于图 4-2 中的结构的。这说明,对于分类和回归,我们需要用不同的网络结构以适应二者不同的特征分布。对于回归任务,需要用卷积保留空间信息;对于分类任务,需要用全连接层捕捉目标整体的细节信息。
此外,Double Head 进一步证明了如果让不同的头部网络进行联合训练,即不同头部网络除关注自己本身任务,还受到其他任务的监督,那么检测器的性能还能进一步提升。文中设计了图 4-4 的网络结构,全连接的头部网络会接收回归任务的监督信息,卷积头部网络也会接收分类任务的监督信息,这种网络结构使得检测的效果得到了进一步提升。
Double Head 展示了全连接和卷积在分类和回归任务上有不同的影响,本节对这一现象进行分析,并给出进一步的提升方法。 在介绍本文的方法之前,我们重新回顾一下原始的Faster RCNN的预测过程。
首先, 我们在图 4-5 中,将图像与图像对应的特征进行了可视化。
图 4-5-2 热度图是原图和特征图重合显示的。由于神经网络是稀疏激活的,因此特征图会在有目标的地方出现较强的响应(呈红色),而背景部分响应较弱。
从图 4-5-2 可以看出,网络中特征响应较强的区域与目标所在的区域是大致对齐的。首先 RPN 网络基于特征响应,可以大致预测出出存在物体的区域,并通过 ROI 池化操作在特征图上截取下来。红色网格代表经过ROI 池化之后的像素值。这些强响应区域是后续进行分类和回归的依据。在这个阶段,如果把特征图用全连接操作将输入特征图拉成一列像素(图 4-5-3),会在 RCNN 阶段一开始就损失掉像素间的空间关系。尽管 Faster RCNN 的实验结果表明全连接得到的特征仍可以预测目标框,但是由于空间信息的丢失,网络无法得知完整的强响应激活区域。
又由于全连接层在不同空间位置的存在权重差异(图 4-5-3),使得网络可能在某一小块局部区域上赋予过大的权重。导致出现图(4-5-4)所示的框出显著局部的情况。这些显著局部框属于得分极高的 FP,会显著影响检测效果。
如果我们对头部网络进行修改,采用图 4-2(b)中所示的网络结构。与图 4-2(a)相比,4-6 图 4-2(b)中头部网络部分采用的是卷积操作,在 RCNN 阶段中保留了空间结构,使得 RCNN 的输出向量中包含了对于空间信息的感知与预测能力。最后平均池化的操作在保留了像素间的空间关系的情况下,对所有特征求平均,使得网络不至于关注目标的某一个局部区域(图 4-6-3)。此时,特征图的强响应区域汇合在一起共同预测,更容易框到目标的整体。基于以上分析,我们可以看出回归分支需要满足如下要求:必须保留特征图的空间信息,加强特征图对位置信息的感知能力。
针对上述两个问题,本文引入了坐标卷积(Coord-Conv),加强目标检测网络的空间感知能力,提高网络回归精度。
坐标卷积是 Uber 发表的用于解决坐标变换问题的网络。卷积神经网络的原始模型神经认知机制是平移不变形,是忽略位置的,因此无法进行精确的定位任务。坐标卷积的设计思路是在卷积层中添加坐标,作为附加的输入映射。由于普通的卷积是平移不变的,因此对于空间变换的感知能力是比较弱的。在坐标卷积论文中,作者进行了几个实验,验证了监督渲染、有监督的坐标分类以及监督回归等与空间信息有关的任务对于卷积神经网络处理起来都比较困难。为了加强卷积神经网络感知空间位置的能力,作者通过向输入中添加两个坐标通道。图 4-7 中,上图是传统的做法,下图是加入了两个通道分别为 i 坐标和 j 坐标的通道。通过将坐标与输入特征并联,坐标卷积将普通标准卷积层进行简单扩展,引入了空间坐标信息,有效地加强了卷积神经网络的攻击信息感知能力。由于坐标卷积本质上是卷积,针对目标检测的回归任务而言,相比于全连接层,具有保持特征图空间信息的天然优势。此外,由于坐标信息的加入,坐标卷积进一步加强了分类分支对特征图位置信息的感知能力。因此本文提出在回归分支中引入坐标卷积。
借助坐标卷积,我们设计如下图所示的回归头部网络结构。具体的,我们在回归支路上额外添加坐标信息。使得网络能进一步感知空间信息,提升网络的回归精度。
回归分支提取出特征之后,分类分支要做的是打出更精确的分数。尽管是单独的分类任务,RCNN 的分类和常规的分类任务如 ImageNet、Cifar 等仍然存在较大的差异。
常规分类任务的图片,目标区域占整张图片的比重大,且较为居中,只有边缘的少部分区域是背景特征图边缘响应较弱,强响应区域一般足以完全代表图片信息。因此 ResNet网络在做 ImageNet 分类任务时,正是把最后 7*7 的特征图做全局池化后输入分类器。但在检测任务的 RCNN 阶段,IoU 超过 0.5 的样本就会被判断为正样本,这些样本不仅包含着大量的背景区域,其目标区域还可能出现在特征图的任何位置,在大多数情况下都会偏离图片中心。这些现象导致特征图上的大部分响应较弱,如果用全局池化处理,很容易被背景干扰,造成错判漏判。基于上述讨论,本文提出了提升 RCNN 识别能力的关键因素,即在特征里前景目标存在的位置上提取精细的特征,与背景所在的像素区分开来。为此,本文提出了可变形卷积(Deformable Conv)配合全连接层结构。特征经过可变形卷积进行卷积核的位置映射,对前景目标所在位置进行充分的计算,随后的全连接层通过为像素分配不同权重实现筛选,最终得到表征力较强的特征。
可变形卷积从概念到实现过程_Clark-dj的博客-CSDN博客_可变形卷积
可变形卷积(Deformable ConvNet)网络提出于 2017 年,提出的背景是目前的卷积神经网络对于几何变换建模的能力主要来自于数据增强、模型容量提升以及一些简单的手工模型,缺少处理几何变换的内部机制。可变形卷积网络的设计就是为了能够适应检测对象的尺寸、姿态等变形中的几何变化以及模型几何变化,主要原理是通过添加位移变量,这个变量是可以根据数据的情况进行学习。偏移量的存在使得卷积核的每个方块进行可伸缩的变化,从而改变感受野的范围。具体来讲传统的卷积核是排列整齐规则,而可形变的卷积通过对于传统卷积的每个点添加偏移量,这样卷积核的排列变得不规则可以达到尺度变换、旋转变换等效果,如下图所示:
目前可变形卷积应用在目标检测中,存在以下两种应用方法:
(1)在 Backbone中使用可变形卷积(2)基于可变形卷积实现 ROI Pooling。
- Backbone 中使用可变形卷积使得特征提取阶段得到对于目标大小和形变更为鲁棒的特征。
- 可变形卷积 ROI 池化指的是在 ROI 池化之前,采用可变形卷积计算每一个池化区域的偏移量,从而使得 ROI 区域是可变形的。上述两种方法 Deformable ConvNet 论文中被证明是有效的。
与上述两种使用不同可变形卷积的方法不同,本文在目标检测头部网络(head)部分使用可变形卷积。目的在于利用其卷积核的可变形性,精细化的捕捉 RPN 输出区域中的目标,即前景部分。
本文的分类头部网络设计如下图 4-10 所示,ROI 池化可以得到 7*7*256 的特征图,特征图经过 3*3 的可变形卷积进行处理,通过添加填充(padding)使尺度不变,得到的仍是 7*7*256 的向量。这个向量被拉平(flatten)成为 12544 个元素组成的一维向量,随后输入两层 1024 维的全连接,进行分类分数的预测。
TP(true positive)也就是 IoU>threshold 的候选框数量,FP(false positive)指的是IoU<=threshold 的候选框,或者是检测到同一个 GT 的多余检测框的数量,FN(false negative)指的是没有检测到的 GT 的数量。threshold 是影响 Precision 和 Recall 的关键因素。对于不同的 threshold,就会有不同的 Precision-Recall 曲线,曲线下的面积也就是这个类别的 Average Precision。m AP 也就是多个类别的 Average Precision 的平均值,即mean Average Precision。
猜测应该是说只要解耦了,无论后续是用fc还是conv都有增益。
其他交流
经典算法的核心创新点应该记在心里了。