Fast single shot detection and pose estimation 论文笔记

论文实在SSD论文的基础了,做了简单的改动。主要观点是建立了一个卷积网络以提供检测和视角(pose)估计。

数据集

使用的数据集有两个,一个是Pascal 3D+ Dataset, 数据下载链接http://cvgl.stanford.edu/projects/pascal3d.html。
这里写图片描述
另外一个是使用RGB摄像机采集的日常环境图片

流程

Fast single shot detection and pose estimation 论文笔记_第1张图片
输入图片,经过一个SSD网络,得到bounding box, 类别和角度估计。

三个设计

(1)将角度空间离散为 Nθ 个bins,将pose estimation问题转变为一个classification问题。这样可以产生pose和每一个可能的pose对应的confidence。
(2)是否单独预测每一类的pose,也就是是否使用相同的网络预测所有的pose。实验结果表明使用同一个网络预测所有类别的pose,mAVP更高
(3)输入的size,300*300或者500*500。500*500获得的mAVP高,但是增加了时间消耗。

模型

Fast single shot detection and pose estimation 论文笔记_第2张图片
在SSD的基础上,将每一个pose当做是一个类别添加到conf的输出中。
损失函数在之前SSD损失函数的基础上添加关于pose的损失函数,损失函数的计算与class相同,使用softmax。

评价指标

AP—标记 拥有正确的类别标签,并且IoU>0.5的bounding box
AVP—标记 拥有正确的类别标签和角度标签,并且IoU>0.5的bounding box
整个网络比较简单。

你可能感兴趣的:(Deep,Learning)