本文整理了Uber的技术团队“先进技术小组”(Advanced Technologies Group,ATG)在顶级会议和期刊上发表的关于计算机视觉,机器学习和机器人技术的自动驾驶车辆研究论文。
本篇文章发表于2017年,被ICCV 2017 收录。本文提出了一种直接从俯视图像中估计道路拓扑结构的方法,这种方法不需要用昂贵的传感器,提供了一个覆盖范围广、价格合理的解决方案。为了实现这一目标,利用深度学习对俯视图像进行初步分割,通过算法将提取出的道路拓扑中的缺失部分连接起来,并作为一个可以有效解决的最短路径问题。现在看来,这种方法可以粗略的进行路线规划。
论文下载地址:
https://arxiv.org/pdf/1806.11534.pdf
2.End-to-end Learning of Multi-sensor 3D Tracking by Detection
2018年,Uber也尝试了用端到端的方法,这篇论文提出了一种新的检测跟踪方法,可以同时利用摄像机和激光雷达的数据来产生非常精确的三维轨迹。针对这一目标,可以将问题表述为一个精确求解的线性规划,端到端的检测和匹配。在Kitti数据集中评估模型,并显示出非常有竞争力的结果。
论文下载地址:
https://arxiv.org/pdf/1806.11534.pdf
3.Learning to Reweight Examples for Robust Deep Learning
为了处理数据集的偏差和标签噪音问题,Uber团队也提出了一种新颖的元学习算法,该算法学习基于其梯度方向为训练样本分配权重。该方法可以在任何类型的深度网络上轻松实现,不需要任何额外的超参数调整,并且在类别不平衡和损坏的标签问题上,实现了不错的性能。
论文下载地址:
https://arxiv.org/pdf/1803.09050.pdf
4.Matching Adversarial Networks
在CVPR 2018上,Uber团队也构建了匹配对抗网络来解决CGAN应用于监督任务上的弊端。
论文下载链接:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Mattyus_Matching_Adversarial_Networks_CVPR_2018_paper.pdf
5.PIXOR: Real-time 3D Object Detection from Point Clouds
这篇同样发表在CVPR2018上的论文,解决了在自动驾驶环境中从点云中进行实时3D物体检测的问题。通过从鸟瞰图(BEV)中表示场景,更有效地利用3D数据,Uber团队提出了PIXOR,一种无提议的单级检测器,输出从像素方式神经网络预测解码的定向3D对象估计。输入表示,网络架构和模型优化专门用于平衡高精度和实时效率,并在两个数据集上验证了PIXOR:KITTI BEV物体检测基准和大规模3D车辆检测基准。
论文下载链接:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_PIXOR_Real-Time_3D_CVPR_2018_paper.pdf
6.Hierarchical Recurrent Attention Networks for Structured Online Maps
除此之外,Uber团队也解决了从稀疏3D点云提取在线道路网络的问题。该方法受注释器构建车道图的启发,首先确定有多少车道,然后依次绘制每个车道。他们开发了一个分级循环网络,它通过输出结构化折线来处理车道边界的初始区域并完全跟踪它们。在90公里长的高速公路上,证明了该方法的有效性。
论文下载链接:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Homayounfar_Hierarchical_Recurrent_Attention_CVPR_2018_paper.pdf
7.Deep Parametric Continuous Convolutional Neural Networks
一种对象实例的半自动注释方法,Uber打破了将对象分割视为像素标注问题,而是将其转换为多边形预测任务,模仿大多数当前数据集的注释方式。用该方法将图像裁剪作为输入,并顺序生成对象的多边形顶点。
论文下载链接:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Deep_Parametric_Continuous_CVPR_2018_paper.pdf
8.SBNet: Sparse Blocks Network for Fast Inference
2018年,Uber团队通过改进深度卷积神经网络(CNN)得到稀疏卷积算法,验证了稀疏CNN对基于LiDAR的3D物体检测的有效性。
论文下载链接:
https://arxiv.org/abs/1801.02108
9.Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
论文下载链接:
http://openaccess.thecvf.com/content_cvpr_2018/papers/Luo_Fast_and_Furious_CVPR_2018_paper.pdf
10. End-to-End Deep Structured Models for Drawing Crosswalks
在一篇发表于ECCV2018的论文中,Uber解决了从LiDAR和摄像机图像中检测人行横道的问题。为了实现这一目标,给定了多个LiDAR扫描和相应的图像,将两个输入投影到地面上以产生场景的俯视图。然后,利用卷积神经网络提取关于人行横道位置的语义线索。将这些与来自免费可用地图(例如,OpenStreetMaps)的道路中心线结合使用,以解决绘制最终人行横道边界的结构化优化问题。
论文下载链接:
http://openaccess.thecvf.com/content_ECCV_2018/papers/Justin_Liang_End-to-End_Deep_Structured_ECCV_2018_paper.pdf
11.Deep Continuous Fusion for Multi-Sensor 3D Object Detection
camera图像和雷达俯视图分别用ResNet提取不通尺度特征的,将camera图像提取的多尺度特征进行融合,经过本文设计的“连续融合层”以融合到BEV的不通尺度的特征中,学到的特征经个两个固定尺度的anchor,每个尺度两个方向(0,90°)NMS获取最终的3D目标检测。
论文下载链接:
http://openaccess.thecvf.com/content_ECCV_2018/papers/Justin_Liang_End-to-End_Deep_Structured_ECCV_2018_paper.pdf
12.Efficient Convolutions for Real-Time Semantic Segmentation of 3D Point Clouds
Uber发明了一种新颖的方法,使用深度神经网络实时处理点云,采用简单占用网格的2D表示,并生成细粒度的3D分割。
论文下载链接:
http://www.cs.toronto.edu/~wenjie/papers/3dv18.pdf
13.Learning to Localize Using a LiDAR Intensity Map
在本文中,Uber团队为自动驾驶汽车提出了一种实时,与校准无关且有效的定位系统。该方法学习将在线LiDAR扫描和强度图嵌入到联合深度嵌入空间中。然后通过嵌入之间的有效卷积匹配来进行定位。该完整系统可以在15Hz下实时运行,同时在不同的LiDAR传感器和环境中实现厘米级精度。
论文下载链接:
http://proceedings.mlr.press/v87/barsan18a/barsan18a.pdf
14.IntentNet: Learning to Predict Intention from Raw Sensor Data
在本文中,Uber团队开发了一个单级探测器和预报器,它利用了LiDAR传感器产生的3D点云以及环境的动态图。该多任务模型比单独的模块具有更高的精度,同时节省了计算,这对于减少自动驾驶应用中的反应时间至关重要。
论文下载链接:
http://proceedings.mlr.press/v87/casas18a/casas18a.pdf
15.HDNET: Exploiting HD Maps for 3D Object Detection
论文下载链接:
http://proceedings.mlr.press/v87/yang18b/yang18b.pdf
16.Deep Multi-Sensor Lane Detection
论文下载链接:
https://arxiv.org/abs/1905.01555
17.Graph HyperNetworks for Neural Architecture Search
论文下载链接:
https://openreview.net/forum?id=rkgW0oA9FX
18.DeepSignals: Predicting Intent of Drivers Through Visual Signals
论文下载链接:
https://www.cs.toronto.edu/~urtasun/publications/frossard_etal_icra19.pdf
19.Deep Rigid Instance Scene Flow
20.Multi-Task Multi-Sensor Fusion for 3D Object Detection
21.Learning to Localize Through Compressed Binary Maps
22. Convolutional Recurrent Network for Road Boundary Extraction
23. UPSNet: A Unified Panoptic Segmentation Network
24.End-to-End Interpretable Neural Motion Planner
本文提出了一种神经运动规划器,用于学习在复杂的城市场景中自主驾驶,包括交通灯处理,屈服以及与多个道路使用者的交互。Uber利用该方法在北美几个城市得到的实际驾驶数据中验证了其有效性。
论文下载链接:
http://www.cs.toronto.edu/~byang/papers/nmp.pdf
25.Exploiting Sparse Semantic HD Maps for Self-Driving Vehicle Localization
本文提出了一种新的语义定位算法,该算法利用多个传感器,精度可达几厘米。该方法不需要对世界的外观有详细的了解,而且地图存储量比传统几何和基于激光雷达强度的定位器使用的地图少很多。
论文下载链接:
https://arxiv.org/abs/1908.03274