CenterNet :Objects as Points阅读笔记(未完待续)

一、概述

这个文章作者在构建模型时将目标作为一个点——即目标BBox的中心点。检测器采用关键点估计来找到中心点,并回归到其他目标属性,例如尺寸,3D位置,方向,甚至姿态。

论文创新点:

第一,我们分配的锚点仅仅是放在位置上,没有尺寸框。没有手动设置的阈值做前后景分类。(像Faster RCNN会将与GT IOU >0.7的作为前景,<0.3的作为背景,其他不管);

第二,每个目标仅仅有一个正的锚点,因此不会用到NMS,我们提取关键点特征图上局部峰值点(local peaks);

第三,CenterNet 相比较传统目标检测而言(缩放16倍尺度),使用更大分辨率的输出特征图(缩放了4倍),因此无需用到多重特征图锚点;
对物体的中心点位置进行预测,同时预测物体的大小。

二、网络结构

​输入图像:其宽W,高H:
在这里插入图片描述
我们目标是生成关键点热力图:
在这里插入图片描述
其中R 是输出stride(即尺寸缩放比例),C是关键点类型数(即输出特征图通道数);关键点类型有: C = 17 的人关节点,用于人姿态估计; C = 80 的目标类别,用于目标检测。我们默认采用下采用数为R=4 。
对于 Ground Truth(即GT)的关键点 c ,其位置为p,计算得到低分辨率(经过下采样)上对应的关键点为:
在这里插入图片描述
作者将 GT 关键点 通过高斯核:
在这里插入图片描述
其中
在这里插入图片描述
是目标尺度-自适应 的标准方差。

可得到feature map经过变换后的结果:
在这里插入图片描述
如果对于同个类 c (同个关键点或是目标类别)有两个高斯函数发生重叠,我们选择元素级最大的。训练目标函数如下,像素级逻辑回归的focal loss:
CenterNet :Objects as Points阅读笔记(未完待续)_第1张图片
其中 alpha 和beta是focal loss的超参数,实验中两个数分别设置为2和4, N是图像 I 中的关键点个数,除以N主要为了将所有focal loss归一化。

由于图像下采样时,GT的关键点会因数据是离散的而产生偏差,我们对每个中心点附加预测了个局部偏移 :
在这里插入图片描述
所有类别 c 共享同个偏移预测,这个偏移同个 L1 loss来训练:
CenterNet :Objects as Points阅读笔记(未完待续)_第2张图片
只会在关键点位置 p_hat做监督操作,其他位置无视。下面章节介绍如何将关键点估计用于目标检测

Objects as points目标检测

CenterNet :Objects as Points阅读笔记(未完待续)_第3张图片
CenterNet :Objects as Points阅读笔记(未完待续)_第4张图片
CenterNet :Objects as Points阅读笔记(未完待续)_第5张图片
参考:https://blog.csdn.net/c20081052/article/details/89358658

你可能感兴趣的:(深度学习,目标检测,anchor,free,one,stage)