最近看了论文CDBN 3D ShapeNets: A Deep Representation for Volumetric Shapes 将所学到的东西稍作整理。
有关论文的一些网址:
[1] CRBM http://qipeng.me/software/convolutional-rbm.html
[2] CRBM 论文笔记 http://www.cnblogs.com/lijingcong/p/4113143.html
[3] CDBN paper http://ai.stanford.edu/~ang/papers/icml09-ConvolutionalDeepBeliefNetworks.pdf
[4] CDBN matlab 代码 http://www.adv-ci.com/blog/source/cdbn/
[5] CDBN PyCUDA 相关介绍网址 http://www.cse.msu.edu/~solgi/index.php?p=software
解决用3D data进行object detection 和从2.5Dmaps中恢复出整个3Dshapes问题,根据CDBN网络提出了3D ShapeNet:
(1)学习不同种类不同poses 3D shape的分布,并得到层次表达
(2)支持joint object recognition,且可以从2.5D depth maps中复原为3D maps,通过view planning 可以进行active object recognition。
3D shape data Recognition 中的两个难点(前人大部分依赖于对objection的part进行标记,训练模型):
(1)种类识别,categories recognition
(2)Shape completion:2.5D shape 复原成3D shape
建立了3D ShapeNets(网络结构),且为了训练建立了ModelNet(数据库)
作者所感兴趣的问题,前人所做的工作及问题所在
(1)shapes across a variety of objects with large variations
我所理解的是,同一类物体具有很大的变化即类内差异大
Most of the works [7, 12, 17] use an assembly-based approach to build deformable part-based models. These methods are limited to a specific class of shapes with small variations, with surface correspondence being one of the key problems in such approaches. 简单来说就是前人的很多工作是part-based models(例如识别的时候会将桌子面和桌子腿分开),这种方法受限于类内差异小
(2)Surface reconstruction of corrupted scanning input。(已知图像的部分进行图像的复原)
前人的相关工作很多是基于平滑内插和外推(smooth interpolation or extrapolation ),这类的方法只能解决图像缺失一小部分的问题。而且前人方法结果的好坏受限于图像质量的好坏。
(3)3D data
在物体识别中,还没有人真正用3D data进行实验。
(4)Complex real world object shapes in 3D
Shape Boltzman Machine to generate horses 有效的捕捉到horse intra-class variation,本文作者就是受到shapeBM的启发认为生成模型可以学习到3D shape的表达。So,建立了ShapeNets。
(5)单一view下不能识别物体,或不能进行物体复原
本文用Next-best-view
这里包含3部分,数据的处理,单一view的复原,查找Next-Best-view。
(1)数据处理
(2)单一view的复原
Volumetric representation的数据作为ShapeNets的数据输入进行物体复原。如果复原结果又3种,这就是复原的不确定性,论文中用uncertain表示,需要获取next-view的数据,用来确定最后的分类结果。
(3)查找next-best-view
步骤说明:
a.查找所有的different next-view candidates
b.在original view的possible shapes
c.计算所有candidates 对应的possible shape的不确定性
d.将不确定性最小的,最为next-best-view。