自动驾驶入门日记-14-2018CVPR自动驾驶论文阅读

太让当空照,导师对我笑,老师说,早早早,你为什么论文发的那么少。不说了,都是泪啊,科研不易,且行且珍惜吧,尤其是我这一头还算茂密的黑发(手动撩发)。

最近科技界比较平静,好像没有什么惊世骇俗的事情发生,我每天也是默默的看着论文,撸着代码,享受着岁月静好。要说有什么好玩的事情,应该是我们的吴恩达(Andrew Ng)老师最近就在今天宣布开始种地啦,国人田园风光才是真正美好啊。开玩笑的啦,新闻是这样的:

Landing.ai 是人工智能著名学者吴恩达(Andrew Ng)的第二个创业项目。在公司成立并宣布与富士康进行合作仅 7 个月后,今天 Landing.ai 又在湖南长沙宣布签下第二个大单:与国内高端装备制造企业中联重科达成战略合作。

这份协议的签订标志着中联重科进入人工智能技术领域,成为国内首家 AI 农业装备制造企业。双方将致力于共同研发基于人工智能(AI)技术的新产品,打造顶尖人工智能技术团队,以使中联重科成为以人工智能驱动的领先装备制造企业。

此次双方的合作主要包括技术合作与人才培养两大方向。技术合作上,Landing.AI 将为中联重科农业机械和其他领域提供人工智能技术的战略,双方将共同开发数款基于人工智能技术的农业机械产品。人才培养方面,Landing.AI 将帮助中联重科招聘、培训,为其建立一支专业的人工智能技术团队,让中联重科持续运用人工智能技术服务企业的发展。

不知道大家还记不记得百度的“阿波牛”,这次双方的合作应该是为让AI赋能传统农业,这也说明各界大佬们对AI全面改变社会的生产方式充满了信心。说起这次合作的产品,也是自动驾驶家族的一员哦,就是下面这个大家伙。


中联重科已推出了首款有自动驾驶功能的农机车头

你看,就像马云大大在世界人工智能大会上说的一样,自动驾驶的未来需要想象力,技术带来的永远不只是可预见的改变,让我们一起期待并见证美好的未来吧。


盗一张大佬们的合照

下面回归正题,继续介绍2018CVPR自动驾驶相关领域的论文,今天的论文题目是《On the Importance of Stereo for Accurate Depth Estimation:An Efficient Semi-Supervised Deep Neural Network Approach》,深度估计是计算机视觉领域长期存在的一项具有挑战性的任务之一,在自动驾驶中也起着至关重要的作用。目前深度估计采用的技术主要包括双目深度估计(为了提高精度,特斯拉的前置摄像头采用三目深度估计)、单目深度估计、结构光(第一代kinect)、TOF(time-of-flight,第二代kinect采用的技术),以及精度最高但是成本也最高的激光雷达(谷歌等公司在用,谷歌好像收购了一家激光雷达公司,可以把激光雷达的成本降低到了以前的十分之一,好多数据集把激光雷达采集到的深度数据作为训练和评价其他深度估计方法的ground truth),当然还有其他利用非光学信号的测距技术,例如声纳等。

基于单目摄像机的深度估计技术的研究意义重大,尤其是对机器人领域和自动驾驶领域,准确的估计障碍物的距离对正确规划汽车的路径和行为至关重要,但是由于单目深度估计只包含一帧帧的图像,因此准确估计深度信息极为困难,目前精度最高的单目深度估计技术也不足以满足实际的需求。

双目(多目)深度估计模仿了生物两只眼睛的结构特点,利用两台摄像机之间已知的几何信息进行深度估计,其算法流程为


双目深度估计

双目匹配是双目深度估计的核心部分也是难点所在,发展了很多年,也有非常多的算法,主要目的是计算参考图与目标图之间像素的相对匹配关系,主要分为局部和非局部的算法。一般有下面几个步骤。

1.匹配误差计算

2. 误差集成

3.视差图计算/优化

4. 视差图矫正


视差深度获取

目前匹配算法中效果最好的是图割算法,但是会消耗大量的计算资源。

本文就是利用深度学习的方法解决匹配问题,同时对比了单目深度估计和双目深度估计的效果,并进行了定性和定量的分析。同时在本文提出方法上,使用嵌入式GPU可以达到~20fps的速度同时保证结果可用。


单目估计效果与双目估计效果

由上图可知,在自动驾驶场景中,单目深度估计得到的结果几乎不可用(上图左图),图中共有八个标记点(A-H),基于单目的深度估计全部预测错误,而基于双目的深度估计得到的结果几乎和激光雷达得到的结果一致。单目深度估计之所以效果不好,其原因就是单目无法解决尺度缩放带来的影响,也就是SLAM里面的尺度不确定性问题。双目摄像机由于已知两个摄像机之间的距离,因此可以很容易的获得空间信息,最大的难点就是对获取到的图像进行匹配,也就是两个摄像机中哪些像素点对应空间中的同一个点。

文中提到的网络的结构略微有些复杂,这里就不详细展开了,感兴趣的可以自己看论文里的附录部分。


网络结构

网络通过对比得到的特征图进行匹配,然后就可以很方便的计算深度啦。文章涉及到的损失设计很复杂,本人能力有限加上非此方向,所以想要深究的大神就自己看论文吧(万分抱歉,呜呜)。


效果对比

基于视觉信息的深度估计对降低自动驾驶汽车的成本很有帮助,但是对算法的要求比较高,因此如何开发出高效准确的算法对自动驾驶的安全可靠至关重要。

最后,祝好!愿与诸君一起进步。

你可能感兴趣的:(自动驾驶入门日记-14-2018CVPR自动驾驶论文阅读)