A deep learning framework for road marking extraction, classification and completion from mobile laser scanning point clouds
1、将点云投影为灰度图
将地面旋转到xoy平面,按照比例建立栅格网,根据网格中的点云平均强度,确定该像素点的灰度值
2、道路标志提取
使用改进的U-net网络,对图片内容进行二分类,去除噪声,同时保留边缘信息。
3、道路标志分类:对不同道路标志逐步分类
(1)使用不同阈值的欧几里得聚类算法,识别车道线和斑马线
(2)使用CNN网络,识别左转箭头、直行箭头、文本。
4、道路标志完善
(1)使用cGAN完善小型路标
(2)使用基于上下文信息的方法完善大型路标
5、将图片投影回点云
对于上一步新增的像素点,随机生成xy,并用邻近点的坐标生成z。
目录
摘要
方法
1 基于U-net的改进路标提取方法
2 分层路标分类
(1)多尺度聚类
(2)CNN分类器
3 联合学习和上下文完善
(1)基于深度学习的路标完善(小路标)
(2)基于上下文的完善(大路标)
道路标志在道路安全中扮演着重要的角色,也是自动驾驶的重要组成部分。有准确道路标志信息的高精度地图有着广泛应用,包括路面维护,导航改善和对即将到来的路况预测。我们提出一个用于道路标志提取,分类的3D点云深度学习网络。相比于现有的道路标志提取方法,他们大多基于强度阈值,我们对数据的敏感性较低。我们增加了“路标完善”步骤,来进一步优化结果。在提取部分,一个改进的U-net模型被用于分割路标像素,以克服强度变化和低对比度等问题。在分类部分,一个分层的分类方法(将多尺度的聚类和CNN相结合)用于分类有着大量不同的路标。在完善部分,一个基于GAN(生成性对抗网络)用于:先完善小尺度的路标,然后完善残缺的车道线并用基于上下文的方法增加缺失的标志。进一步,我们建立了一个点云道路标志数据集去训练深度神经网络并且评测我们的方法。这个数据集包括城市道路、高速路移动雷达数据和由我们自己用背负式雷达扫描系统获得的地下停车场。实验结果表明,效果显著。
我们的方法包含三个主要的步骤:路标提取、分类和完善
目前可用的方法非常容易受到强度、密度变化和路面路标的不同强度影响。我们提出一种基于深度学习的路标提取方法,克服了上述问题。
道路点云数据的高度对路标提取是没用的。这里,高度是指3D点坐标中的z坐标。我们假设路的表面是平行于我们建立的点云坐标xoy。那么,路是一个典型的2D结构。过滤初始点云,剩下路的部分。我们首先将点云投影到一个水平平面,并且栅格化为2D图形,投影这一步显著的减少了计算,每个网格中的所有点云的平均强度,被用于代表该网格。因为一个网格同时也代表着一些路标点云或是非路标点云,我们将路标提取任务视作一个二元分类问题。
一个改进的分割网络U-net被用于分类每个像素。U-net是一个特别的编码-解码网络,它设置了编码和解码之间的联系。对于编码-解码网络,编码的降采样层通常导致很多图像细节的丢失,特别是边缘的信息。对解码层,存储这些细节是很难的。在U-net的每个编码层中,被保存和使用的特征映射保留有大量的细节,更好的指导解码。因此,U-net的输出更加准确。我们把U-net用于路标提取,因为它不仅可以从很多标注样本中学习强度的不同,还可以学习路标的不同。
在编码层,一个3x3的卷积核和ReLU激活函数被使用。训练时,增加了一个批正则化处理。每个编码层有两次卷积,第二次卷积的结果会被存储。卷积后,特征映射用2x2核2x2步进的最大池化进行降采样,结果被输入下一个编码层。在解码层,特征映射通过去卷积升采样,去卷积和相关编码层中保存的卷积结果相连。最终,特征映射被一个1x1卷积,softmax激活函数和argmax函数转换为一个分割结果。
路标分类包括两个主要步骤:(1)多尺度聚类算法对大尺度路标分类;(2)CNN分类器用于分类小型路标,包括直行箭头、转弯箭头和文字
大型路标包括车道分界线和斑马线,一个基于距离的欧几里得聚类将分割目标,将一系列的点(距离小于一个阈值)视作同一个物体。首先,将一个小尺度的欧几里得聚类应用到所有提取目标的分割,通过设置一个小的距离阈值(Ts),将他们尽可能的分割开来。车道分界线将高效地被分离出来,车道线最显著的不同的是它很长。因此,我们将长度大于L的归为车道线。接下来,通过一个大尺度欧几里得聚类将路标分类为独立的目标,这一步可以区分除了斑马线以外的其他路标。我们计算每个标志的中心点的坐标和最小长方形边界框坐标,并计算这些标志的位置关系。一系列的长方形标志(边界框是平行的,并且中心点的距离D在一个特别的范围内)将被视作属于一个斑马线。
剩余10种标志,包括:2种虚线,4种文本,2种箭头,一种菱形,和一种三角形标志。一个4层卷积层,3x3卷积核,步伐为1,被用于提取特征,然后是批标准化,ReLU。在特征提取后,3维特征映射被压平为1维特征向量。这个向量用一个全连接网络,第一层包括1024个点,激活函数为ReLU,为阻止过拟合,使用了dropout(50%)。最后一层包括10个点,激活函数为softmax,输出的是类别分数。
我们通过对手工标记的模板标志,旋转,增加噪音来生成更多的训练数据。
路标完善:将一个不完整路标转换为完整路标,本质上,可以视作是一个image translation task。生成器和U-net编码解码网络相似。鉴别器是一个2层卷积网络,用于regress生成器的输出是否为真/假的可能性。通过输出一个假的、逼真的图片,并输入到鉴别器中。希望生成器能够尽可能的欺骗鉴别器;鉴别器可以区分输入的是真实的还是生成的。生成器和鉴别器的损失函数如下:
Preal/Pfake是鉴别器认为输入图片是真/假的概率。L1是距离约束项。y是ground truth,x是生成器的输入(不完全路标),G是生成网络,λ是超参数。通过最小化lossD,来更新鉴别器的参数。
基于路标设计规则的上下文信息,完善大路标。
道路线:连续实线。对于虚线,两个连续虚线之间的空隙必须是一致的;平行虚线之间的距离应该是统一的。
在完善路标后,为了减少不必要的准确率顺势,我们将图片转换回3D点云。图片是从点云投影过程中获得,我们找到点云和每个像素位置之间的关系。对于没有对应关系的像素,我们使用Inverse Distance Weighted(IDW) 距离倒数加权插入算法来计算新增点云的坐标。
如果一个像素没有相关联的点,我们在这个位置随机生成一系列包含xy坐标的点,然后用邻近点来计算z坐标。
(xi, yi, zi)是第i个邻近点的坐标