Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)

1. 概述

该论文的主要工作是,在只利用激光雷达的点云数据作为输入,在点云数据中进行类型为车辆的目标进行检测(在复现该算法过程中,存在一个比较显然的现象就是:目标所在的的位置,实际上垂直角一般都很小,在进行映射映射前后容易产生误差,这种误差对于远的目标的定位会有非常明显的影响;或者是是我理解有问题吗? -2018-04-25)。


2. 方法

2.1 数据预处理

将激光雷达扫描获取的3维点进行映射,其中映射方法如下:

 Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第1张图片

则,在3D空间中的任意一点P(x,y,z)对应的映射点为:


其中

表示映射点的2D坐标,映射公式见(1)

表示2通道值,两个通道的值的计算方法为:

Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第2张图片

如果2D平面上的点无对应的3D点,则使用(0,0)进行填充。

 

2.2 全卷积网络结构

如下图所示,为该论文采用的全卷积网络的框架结构,该网络并不是简单地进行卷积层的堆叠,而是引进了跨层链接的结构,通过这种第层卷积特征和高层卷积特征的结合,以获取对小物体和物体边缘特征的提取。详细的深度全卷积网络的说明见表1(但是,卷积核的个数相关的内容论文没有详细描述)

1. 全卷积网络结构说明

卷积层

/下采样步长

说明

conv1

水平和垂直方向步长为(4,2)进行下采样

 

conv2

水平和垂直方向步长为(2,2)进行下采样

 

conv3

水平和垂直方向步长为(2,2)进行下采样

 

deconv4

(1) conv3水平和垂直方向步长为(2,2)进行上采样

(2) conv2

连接特征图

deconv5b

(1) deconv4在水平和垂直方向步长为(2,2)进行上采样

(2) conv1

连接特征图

deconv5a

(1) deconv4在水平和垂直方向步长为(2,2)进行上采样

(2) conv1

连接特征图

deconv6b

deconv5b在水平和垂直方向步长为(4,2)进行上采样

 

deconv6a

deconv5a在水平和垂直方向步长为(4,2)进行上采样

 

 Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第3张图片

1. 全卷积网格结构

Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第4张图片

Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第5张图片

2. 局部坐标定义

2.4 训练阶段

2.4.1 数据增强

对样本点利用近似单位矩阵的变换矩阵进行变换,以增加样本数量,同时,相比简单地对水平角和垂直角加入噪声,论文中利用接近单位矩阵的变换矩阵对点进行变换,能够近似保留样本点的几何特性。

2.4.2 多目标训练(代价函数)

如前文所述,论文的目标需要同时检测目标框和目标类型分类(“车辆非车辆两个类别), 所以,需要构造代价函数,以驱动深度全卷积网络的参数学习:

(1) 类别识别代价定义如下, 即为softmax代价:

 Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第6张图片

(2) 车辆边框定位代价定义如下, 即目标框定位的差异,采用L2距离范数测度:

 

 

2.4.3 训练策略

由于在很多训练问题中,存在着正负样本不平衡的问题, 在论文所使用的训练集合上(KITTI)数据集合中,同样存在正负样本不平衡的问题;同时,激光雷达扫描的特点:近处扫描点密集,远处扫描点稀疏;为了能够在距离上进行平衡,需要在近处和远处目标样本进行平衡,具体如下:

(1) 正负样本不平衡: 对样本的代价损失进行重加权,即对正样本的权重大,负样本的权重小,在论文中k的取值为4

 

(2) 扫描点近远不平衡:考虑正样本的平均扫描点数和样本本身扫描点数,当正样本的扫描点数大于平均扫描点数时,说明样本离激光雷达较近,损失函数权重较小;反之,则较大,以增强对远处目标的检测能力:

 Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第7张图片

(3) 完整的代价损失函数定义:

 


2.5 测试阶段

为了能够进行准确性验证,由于学习的网络输出的信息为类别,以及预测编码形式的边框结果,所以需要将预测编码形式的结果进行逆变换以获取实际的目标框。 同时,需要进行非极大值抑制,通过分类置信度由高到底排序,每次检测置信度最高的目标框,删除与其距离在一定范围内的其他检测框。

准确性衡量方法:

(1) 在二维平面中,要求检测框通过映射到二维图像平面中,与标注的目标框的重叠度大于70%时,认为检测正确且可接受;

(2) 在三维空间中, 将标注的目标框(3D)和检测获取的目标框(3D)投影到地面后,如果重叠度大于70%,认为检测正确且可接受

2.6 测试结果

Vehicle Detection from 3D Lidar Using Fully Convolutional Network解析(3D-CNN模型)_第8张图片


你可能感兴趣的:(KITTI数据集,机器视觉,tensorflow,深度学习)