在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
来源:专知,编辑:人工智能前沿讲习
【导读】深度图补全在自动驾驶、三维重建、增强现实和机器人导航等各种应用有着关键的作用。深圳市人工智能与机器人研究院等最新《基于深度学习的深度图补全》综述论文,调研了5年的深度图补全的论文,值得关注!
论文地址:https://arxiv.org/abs/2205.05335
深度图补全的目的是从深度传感器捕获的稀疏图预测密集像素级深度。它在自动驾驶、三维重建、增强现实和机器人导航等各种应用中发挥着至关重要的作用。最近在这项任务上的成功已经被证明和主导基于深度学习的解决方案。在这篇论文中,我们第一次提供了一个全面的文献综述,帮助读者更好地把握研究趋势,清楚地了解当前的进展。我们从网络架构、损失函数、基准数据集和学习策略的设计方面对相关研究进行了调研,并提出了一种新的分类法来分类现有的方法。此外,我们还对两种广泛使用的基准数据集(包括室内数据集和室外数据集)上的模型性能进行了定量比较。最后,我们讨论了前人工作所面临的挑战,并对未来的研究方向提出了一些见解。
引言
获取正确的像素级场景深度对于场景理解[50]、自动驾驶[90]、机器人导航[69]、[95]、同时定位和地图绘制[33]、智能农业[22]和增强现实[18]等任务具有重要作用。因此,在过去的几十年里,这一直是一个长期的研究目标。一种经济有效的获取场景深度的方法是使用单目深度估计算法[26],[30],[40],[57]从单幅图像中直接估计场景深度。然而,视觉方法通常产生低的推断精度和较差的通用性,因此在现实世界中使用非常脆弱。
另一方面,深度传感器提供了精确和鲁棒的距离测量与真实的场景尺度。因此,它们更适用于需要安全保障和高性能[25][70]、[90]的应用,如自动驾驶汽车。事实上,在工业应用中,使用激光雷达测量深度可能仍然是获得可靠深度的最可部署的方法。然而,无论是激光雷达还是常用的RGBD相机,如微软Kinect,都不能提供密集的像素级深度图。如图1所示,Kinect捕捉到的深度图有小孔,而LiDAR捕捉到的深度图明显更稀疏。因此,有必要在实践中填充空白像素。
由于Kinect和LiDAR获取的深度图存在明显的差异,根据[45][101],我们在技术上将Kinect数据和LiDAR数据的完成和估计任务区分如下:
1) 深度增强: 又称深度填孔,是指在致密的原始深度图上填充不规则的、罕见的小洞。一个典型的应用就是Kinect的增强。
2) 深度补全: 从高度稀疏的输入深度图中恢复高密度深度图,通常使用LiDAR数据。直观地说,由于输入极为稀疏,深度补全比深度增强更具挑战性。
近年来,基于深度学习的方法在任务中表现出了令人瞩目的性能,并引领了发展趋势。以前的研究表明,具有几个卷积层[98]或一个简单的自编码器[102]的网络可以弥补缺失的深度。此外,深度补全可以通过利用RGB信息进一步改进。这种类型的典型方法[50][88]是使用双编码器分别从稀疏深度图及其对应的RGB图像中提取特征,然后用解码器将其融合。为了突破深度完成的界限,最近的方法倾向于使用复杂的网络结构和复杂的学习策略。除了多分支用于从图像、稀疏深度等多模态数据中提取特征外,研究人员已经开始将表面法线[79]、亲和矩阵[11]、残差深度图[32]等集成到他们的框架中。此外,为了解决缺乏监督像素的问题,一些研究引入了利用多视图几何约束[70]和对抗性正则化[54]。这些努力极大地促进了深度图补全任务的进展。
尽管基于学习的方法取得了巨大的进步,但就我们所知,还缺乏全面的综述。本文旨在通过对已有方法的层次分析和分类,描述基于学习的深度图补全技术的发展,让读者对深度图补全有一个直观的了解,并提供一些有价值的指导。通常,我们希望回答以下问题:
1) 以往实现高精度深度图补全的方法有哪些共同特点?
2) 与非引导方法相比,RGB引导方法的优点和缺点是什么?
3) 以往的研究大多同时使用了视觉数据和LiDAR数据,那么多模态数据融合最有效的策略是什么?
4) 目前面临的挑战是什么?
基于以上问题,我们对2017年1月至2022年5月(撰写本文时)的相关工作进行调研。图2显示了基于所提分类方法选择方法的时间轴,底部和顶部分别为无引导方法和五种RGB引导方法。可以看到,尽管早期研究以无指导的方式处理深度完成,但我们观察到,2020年后发表的研究已逐渐被RGB指导方法所主导。本文从网络结构、损失函数、学习策略和基准数据集等方面对前人的研究进行了综述。我们特别强调提出新的算法或显著提高性能的方法,并适当地提供其技术贡献的可视化描述,以促进澄清。此外,我们在最流行的基准数据集上提供了具有基本特征的现有方法的定量比较。通过对前人研究的深入分析,希望读者对深度图补全有一个清晰的认识。
总而言之,我们的主要贡献如下
据我们所知,这是第一次深度图补全综述。我们给出了一个深入和全面的综述,包括无指导和RGB指导的方法。
我们提出了一个新的分类方法来分类以前的方法,并可视化它们的主要特征,包括网络结构、损失函数和学习策略。
这篇文章涵盖了基于深度学习的最新进展,并在基准数据集上进行了性能比较。它为读者提供了最先进的方法。
我们提供了几个开放的问题和有前途的未来研究方向。
本文其余部分的组织如下:第2节给出了基于深度学习的深度图补全的公式,并提供了分类法。第3节回顾了非引导方法,第4节阐述了RGB引导方法。第5节介绍了前面方法中使用的损失函数。第6节列出了基准数据集,并介绍了深度完井任务的评估指标。第7节从综合不同的角度对以往的方法进行了比较。第8节总结了开放的挑战,并为未来的研究提供了有价值的方向。第9节是结论。
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
计算机视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~