pointnet中就用tf.nn.conv2d(),然后封装了一下,真的很麻烦,也没什么特殊, 基本可以用tf.layers层次的API替代。
处理的数据是B, N, 3 的point_cloud,实际代码中对point_cloud进行了扩维处理
input_image = tf.expand_dims(point_cloud, -1),
将点云拓展成了BHWC格式的图像,此时input_image的维度为 B, N, 3, 1
net = tf_util.conv2d(input_image, 64, [1,3],
padding='VALID', stride=[1,1],
bn=True, is_training=is_training,
scope='conv1', bn_decay=bn_decay)
kernel_h, kernel_w = kernel_size
num_in_channels = inputs.get_shape()[-1].value
kernel_shape = [kernel_h, kernel_w,
num_in_channels, num_output_channels]
kernel = _variable_with_weight_decay('weights',
shape=kernel_shape,
use_xavier=use_xavier,
stddev=stddev,
wd=weight_decay)
stride_h, stride_w = stride # [1, 1]
在本次调用中kernel_h=1,kernel_w=3,即卷积核大小为1×3
num_in_channels=1,kernel_shape=[1, 3, 1, 64],
同时通过_variable_with_weight_decay初始化kernel参数。(这就是tf.nn.conv2d 不方便的地方了)
stride_h=1,stride_w=1即卷积时逐格移动。
tf_util.conv2d() 其实套着一个tf.nn.conv2d() 内核:
outputs = tf.nn.conv2d(inputs, kernel,
[1, stride_h, stride_w, 1],
padding=padding)
biases = _variable_on_cpu('biases', [num_output_channels],
tf.constant_initializer(0.0))
outputs = tf.nn.bias_add(outputs, biases)
input = (B, N, 3, 1) 可以把batch中的每个点云看成 N, 3 的一张图片
对点云操作的时候,stride = (1, 1) ,因为要保证对每个point 都操作到。
kernel_size = (1, 3, 1, 64) ,后两维度表示input_channel, output_channel
对inputs (B, N, 3, 1)中的每个 N, 3 做卷积,其中卷积核大小为[1,3],表示每次都只能处理一个点
最后outputs为 (B, N, 1, 64)。
TensorFlow定义的二维卷积有三种,分别是tf.nn.conv2d、tf.layers.conv2d、tf.contrib.layers.conv2d,个人认为tf.layers.conv2d使用起来更为方便简单,所以就记录下tf.layers.conv2d的使用方法。
tf.layers.conv2d(inputs, filters, kernel_size, strides, padding)
常用的大概就这几个参数,为什么说tf.layers.conv2d使用方便,是因为不需要初始化权重(kernel参数+bias),只需要填写卷积核的数量和大小即可, bias选择也很方便。