本文借鉴了LSTM和GRU的思想,构建一个3D Recurrent Reconstruction Neural Network (3D-R2N2)。模型来源为https://www.shapenet.org/。网络输入图片像素为127*127,输出为32*32*32。模型的4/5为训练集合,1/5为测试集。
图1是简易网络流程图,图2是具体的两个版本网络结构设计,其中上为a shallow network,下为改进后的a deep residual
network,改进的参考文献为
40. He, K., Zhang, X., Ren, S., Sun, J.:Deep Residual Learning for Image Recognition.
ArXiv e-prints (December 2015)
其中激活函数用的是LeakyReLU,
如图2所示,整个网络分为3个部分,2D-Encoder部分,3D-LSTM部分,3D-Decoder部分。
其中
2D-Encoder部分输入为图片,可以是single view或者multi view的,输出为feature,为常见2维图片卷积网络。
3D-LSTM为中间部分,主要是为decoder部分提供输入,将二维特征转换为三维特征,其输入如下图3,本文设计了两种LSTM结构,分别为图4和图5
图3每个3D-LSTM的输入为encoder的feature和上层的卷积结果
图4,图5为两个不同版本的3D-LSTM设计
图4为3D Convolutional LSTMs,图5为3D Convolutional GRUs
其中loss函数有两种
1、评价指标为输出和ground truth的Intersection-over-Union (IoU):
该参数越高越好。
2、备用loss函数令输出的每个像素为一个伯努利分布[1-p,p],ground truth为y\in{0,1},
PS:本文在原始数据PASCAL
VOC 2012 dataset的基础上进行了重新render。
本文对比了已提出的两种算法和另外一种算法
参考文献:32. Kar, A., Tulsiani, S., Carreira, J.,Malik, J.: Category-specific object reconstruction from a single image. In:Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on, IEEE(2015)