自动驾驶入门日记-9-2018CVPR自动驾驶论文阅读

第二篇 Scene Understanding Networks for Autonomous Driving based on Around ViewMonitoring System

让我们接着阅读2018CVPR的论文，今天的论文题目是Scene Understanding Networks for Autonomous Driving based on Around ViewMonitoring System，我把这个题目理解为基于环视系统的自动驾驶场景理解网络。

这篇文章是使用安装在汽车四周的鱼眼摄像机来采集图像信息进而完成障碍物检、可行域检测等自动驾驶场景中的相关任务，由于本篇论文代码和数据集都没有开源，因此就不对这篇论文进行过于详细的解读啦，感兴趣的读者可以自行下载阅读。

论文动机：相较于现有的自动驾驶车载感知系统（雷达、声纳、激光雷达等），视觉系统具有成本低，功耗小的优点，因此如果可以只使用摄像机采集的图片信息就可以完成各种自动驾驶任务的话，对自动驾驶汽车落地和降低生产成本具有很大帮助。例如，我比较喜欢的一家国内自动驾驶汽车公司“小鹏汽车”的一款G3车型上面就有20个传感器。

小鹏汽车

同时，相比于常规的RGB摄像机，本文使用四个鱼眼摄像机采集车辆周围信息，鱼眼摄像机的视场角度为190°，因此只需要4个就可以完全覆盖车辆周围。

鱼眼相机图片

本文主要目的是设计一个轻量级架构完成障碍物底端点检测，可行域检测、以及三维姿态估计三个任务。作者考虑到在自动驾驶场景中的场景理解任务中，实时性的要求是很高的，因此作者将三个任务融入到一个框架以便共享底层特征，在牺牲一定准群率的情况下达到实时要求。

网络设计思路：

受到single-shot（关于single-shot大家可以阅读这篇博客）思想的启发，为了减少冗余的计算，作者先将图片使用一个由卷积神经网络构成的编码器编码，然后对编码后的特征图进行重复采样以避免对重叠区域进行不必要的卷积操作。

底端点检测

如上图所示，在进行底端点检测时，将图片从左到右进行采样，每次采样宽度为24pix，相邻样本间的重叠宽度为23pix，如果每采样一次就进行一次卷积操作的话将会进行大量的重复操作，因此作者将整张图片使用一个编码器进行编码，然后对编码后的特征空间进行相应的重复采样，这样可以减少95%以上的计算量。

整体网络结构

同时作者采用了多任务学习的思想，在不同任务中共享底层权重，以达到多任务实时的目的。根据经验表明，共享层越少，相对任务的准确率就越高，带来的代价就是时间消耗越大，反之亦然。因此共享层数的折衷将会对实验结果带来很大影响。

统一网络结构

文章还对目标物体进行了维度估计和姿态估计，涉及一些计算机图形学的知识（我也不懂，呜呜），在进行方形估计时，作者先将物体朝向角度离散化，转变为一个分类问题，然后使用mean-shift方法恢复为连续状态估计。

姿态估计网络

更多和更加详细的训练细节大家可以自己阅读论文，作者对比了高精度和低复杂两种网络结构的实验结果，对自动驾驶的实时性问题进行了很好的探索，并且是我见到的第一篇使用鱼眼摄像机作为传感器的文章（要是数据集和代码开源就好了）。未来作者还会将3D姿态估计也融入到一个框架当中，进一步减少计算负担，然我们拭目以待吧，期待自动驾驶领域有更多让人耳目一新的工作。

最后，祝好！愿与诸君一起进步。

自动驾驶入门日记-9-2018CVPR自动驾驶论文阅读

你可能感兴趣的:(自动驾驶入门日记-9-2018CVPR自动驾驶论文阅读)