TransFusion-Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

不忙的时候,阅读论文、调研文献。

这篇是2022CVPR、3D检测,采用激光雷达和图像相结合的算法。使用Transformer实现多模态融合。

在自动驾驶领域中,感知、识别、检测车辆周围障碍物有多种方案,有仅基于视觉的、有仅基于激光雷达的,还有基于多传感器融合的。TransFusion采用了多传感器融合的方案,以软关联(soft-association)的方式提高了鲁棒性。

由于视觉技术十分成熟,用来实现车辆周围障碍物检测是比较直觉的方案,难点在于黑夜中的光线问题、恶劣天气下可见范围问题,等(欢迎补充)。总之不完美。

激光雷达,用来检测车辆周围障碍物,难点在于很容易受到天气的影响(实验室的同学做其他相关任务,他们采数据时是要考虑天气因素的)。虽然激光雷达不在乎白天、黑夜,但是仍然不完美。

多传感器融合技术仍在发展中,采集、帧同步、拼接、校准等问题是相比其他单模态技术繁琐的点。但是更头疼的是,多传感器数据的关系是怎样的?数据驱动的深度学习,如何利用多模态数据,并摆脱多模态的依赖?(图像+雷达,work!只有图像,或只有雷达,work!)

如果我们辛辛苦苦搞了个多模态的模型,实测中某个模态的数据出现了不可避免的瑕疵,比如晚上缺少光照,导致整个模型失效,那太遗憾了。

TransFusion采用以激光雷达为主、相机为辅思路,主要以Transformer提取特征。因为Q可以通过随机初始化得到,而TransFusion采用了Image Guidance,就构建了软关联(soft-association)关系。

TransFusion-Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers_第1张图片

 搬1张。(我想,能不能弄个以图像为主、雷达为辅的呢.doge)

TransFusion-Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers_第2张图片

再搬1张。(简单地说,img和lidar做attention,假定已经匹配到足够好了,建立img和lidar的相互关系)。

论文中采用的数据是,nuScenes Dataset和Waymo Open Dataset。代码在mmdet3d上开发的,lidar的backbone用的SECOND,img的backbone用的是ResNet,关键就在于TransFusion这块。

你可能感兴趣的:(论文阅读,自动驾驶)