3D ShapeNets

主页:http://vision.princeton.edu/projects/2014/3DShapeNets/

提要:使用CAD数据作为训练数据,使用卷积DBN网络构建了一个3D ShapeNets,对Kinect传感器获取的2.5D深度图进行目标识别和复原全3D形状。

3D shapeNets
将3D形状表示为3D voxel 网格二值变量的概率分布,作者构造了一个卷积DBN,学习输入x和label y的联合分布,为了降低对外形的影响,没有池化层。结构如下图所示:
3D ShapeNets_第1张图片

前三层是卷积RBM,第四层是标准的具有1200节点的全连接RBM,最后一层的输入是标记和Bernoulli特征变量。训练模型的过程包括最大似然学习联合概率p(x,y),包括逐层预训练过程和全网络微调过程。预训练使用标准Contrastive Divergence 训练低四层RBM,Fast Persistent Contrastive Divergence训练最高层。微调时,使用wake-sleep算法。

2.5D识别和重建
使用3D形状训练,对2.5D点云识别,先将2.5D深度图转换为volumetric表示,使用Gibbs 采样拟合后验概率p(y|x_o),如下图所示:
3D ShapeNets_第2张图片

NextBestView预测
单靠一个视角很难正确识别问题,输入可观测到的点,输出几个表示相机旋转或平移后的视角,算法选择的next view可以降低识别的不确定性,具有distincive 局部的视角可作为best视角,使用条件熵估计视图的识别不确定性:
3D ShapeNets_第3张图片
根据信息论,降低的熵是y和新观测到点 xin 的相互信息,选择最大的相互信息:
这里写图片描述

Best View预测的结果:
3D ShapeNets_第4张图片

预测的最优视角可以用来识别,与其他视角的对比如下表所示:
3D ShapeNets_第5张图片

你可能感兴趣的:(3D-识别)