PoseCNN——自我总结

目的:6D位姿估计
使用网络:CNN
应用场景:杂乱无章
传统方法:通过匹配特征点,再求位姿(要求:图片有丰富的纹理)
发展:深度相机出现后,通过回归像素到3D对象坐标建立2D-3D关联(不能处理对称的对象)
related work:
方式一:基于模板,通过渲染相应的3D模型来的获得模板(能够处理少纹理对象,不能处理闭合)
方式二:基于特征,提取局部特征进行2D-3D匹配(处理闭合,但需要足够的纹理)

PoseCNN:
PoseCNN——自我总结_第1张图片
网络结构:
PoseCNN——自我总结_第2张图片
第一阶段:(semantic labels)
1.预测图片中每个像素的对象标签(较好的处理闭合)
2.通过预测每个像素到中心的单位向量来估计对象中心的2D像素坐标
3.使用语义标签,将像素和中心点关联起来
网络结构分支:
13层卷积层+4层池化层(提取不同分辨率的特征图)输出高维特征图,将高维特征图嵌入低维,输出每个 像素的语义标签,其中用到了softmax来计算像素归属类的可能性

第二阶段:3D translation
T:2D位姿(回归中心)+深度——>3D坐标
PoseCNN——自我总结_第3张图片
求平移的公式

像素回归
PoseCNN——自我总结_第4张图片计算公式
找2D中心:A Hough layer
输入:像素语义标签+回归中心的结果
输出:对象中心

第三阶段:3D rotation
R:回归从对象bounding box中提取的卷积特征到四元数来代表3D旋转(VGG16 network)
PLoss:测量估计R和真实R的距离
PoseCNN——自我总结_第5张图片

挑战(论文优势):处理对称对象的位姿估计问题(理由:对称对象可能回归几个四元数)
ShapeMatchLoss(SLoss):计算估计模型方向和地面真实模型最近点的偏移量
计算公式

你可能感兴趣的:(机器学习相关论文,位姿估计,卷积网路)