三维点云中tf.nn.conv2d() 的用法

pointnet中就用tf.nn.conv2d(),然后封装了一下,真的很麻烦,也没什么特殊, 基本可以用tf.layers层次的API替代。

处理的数据是B, N, 3 的point_cloud,实际代码中对point_cloud进行了扩维处理

input_image = tf.expand_dims(point_cloud, -1),

将点云拓展成了BHWC格式的图像,此时input_image的维度为 B, N, 3, 1

net = tf_util.conv2d(input_image, 64, [1,3],
                         padding='VALID', stride=[1,1],
                         bn=True, is_training=is_training,
                         scope='conv1', bn_decay=bn_decay)
      kernel_h, kernel_w = kernel_size
      num_in_channels = inputs.get_shape()[-1].value
      kernel_shape = [kernel_h, kernel_w,
                      num_in_channels, num_output_channels]
      kernel = _variable_with_weight_decay('weights',
                                           shape=kernel_shape,
                                           use_xavier=use_xavier,
                                           stddev=stddev,
                                           wd=weight_decay)
      stride_h, stride_w = stride # [1, 1]

在本次调用中kernel_h=1,kernel_w=3,即卷积核大小为1×3

num_in_channels=1,kernel_shape=[1, 3, 1, 64],

同时通过_variable_with_weight_decay初始化kernel参数。(这就是tf.nn.conv2d 不方便的地方了)

stride_h=1,stride_w=1即卷积时逐格移动。

tf_util.conv2d() 其实套着一个tf.nn.conv2d() 内核:

      outputs = tf.nn.conv2d(inputs, kernel,
                             [1, stride_h, stride_w, 1],
                             padding=padding)
      biases = _variable_on_cpu('biases', [num_output_channels],
                                tf.constant_initializer(0.0))
      outputs = tf.nn.bias_add(outputs, biases)

input = (B, N, 3, 1) 可以把batch中的每个点云看成 N, 3 的一张图片

对点云操作的时候,stride = (1, 1) ,因为要保证对每个point 都操作到。

kernel_size = (1, 3, 1, 64) ,后两维度表示input_channel, output_channel

对inputs (B, N, 3, 1)中的每个 N, 3 做卷积,其中卷积核大小为[1,3],表示每次都只能处理一个点

最后outputs为 (B, N, 1, 64)。


TensorFlow定义的二维卷积有三种,分别是tf.nn.conv2d、tf.layers.conv2d、tf.contrib.layers.conv2d,个人认为tf.layers.conv2d使用起来更为方便简单,所以就记录下tf.layers.conv2d的使用方法。

tf.layers.conv2d(inputs, filters, kernel_size, strides, padding)

常用的大概就这几个参数,为什么说tf.layers.conv2d使用方便,是因为不需要初始化权重(kernel参数+bias),只需要填写卷积核的数量和大小即可, bias选择也很方便。

你可能感兴趣的:(三维点云中tf.nn.conv2d() 的用法)