论文笔记_CV_AD_A Survey of Computer Vision Research for Automotive Systems

目录

1 现状

1.1 KITTI (国际计算机视觉算法评测数据集)

1.2 KITTI与其他数据库比较

2 自动驾驶中计算机视觉研究任务

2.1 stereo matching

2.2 Visual Odometry

2.3 3D Object Detection

3 关于实时性

4 深度卷积神经网络


1 现状

  • 目前的自动驾驶,严重依赖于一些特殊的传感器
    • Velodyne 传感器(激光传感器)
      • 提供360度实时三维距离地图(360 degree real-time 3D distance map);
      • 三维距离地图可用于障碍物检测导航
      • 缺点:costs 70,000 dollars。
    • 详细的精确地图
      • 例如,地图应该包括交通灯的高度。

1.1 KITTI (国际计算机视觉算法评测数据集)

  • 提供了一套视觉基准套件(vision benchmark suite),
    • 创建目的
      • 鼓励计算机视觉研究团体开发算法,以减少对Velodyne激光雷达传感器和详细地图的依赖。
    • 任务包含
      • stereo matching
      • optical flow
        • 光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度

      • visual odometry,
      • 3D object detection
      • 3D tracking
    • 硬件:包含一辆标准旅行车,配备两个高分辨率彩色和灰度摄像机
    • 提供的数据:
      • 内容包括:
        • 以 Velodyne 激光扫描仪和GPS定位系统数据,作为 ground truth;
        • 提供原始数据,提供预处理数据作为每个任务的基准;
        • 提供评价指标和网站,让用户有相同的评价标准和一个平台,方便比较他们的结果。
      • 优点:KITTI提供了在真实世界中,而不是在实验室环境中记录的更真实的数据
      • 数据来源:在一个中等城市卡尔斯鲁厄(Karlsruhe)的乡村地区和高速公路上开车,就能捕捉到所有的基准
      • 详细参数说明:
        • Andreas Geiger and Philip Lenz and Raquel Urtasun, ”Are we ready for Autonomous Driving? The
          KITTI Vision Benchmark Suite
          ,” Conference on Computer Vision and PatternRecognition (CVPR),2012.
      • 论文笔记_CV_AD_A Survey of Computer Vision Research for Automotive Systems_第1张图片
    • KITTI评估网站提供了一个平台,让用户提交他们的方法,并以不同的方式进行比较,如运行时、环境、额外的输入信息和编码语言。

1.2 KITTI与其他数据库比较

论文笔记_CV_AD_A Survey of Computer Vision Research for Automotive Systems_第2张图片

2 自动驾驶中计算机视觉研究任务

2.1 stereo matching

  • 定义:
    • 从数字图像中提取三维信息的方法。两个水平放置的摄像机被用来获取一个场景的不同视角。通过对这两幅图像的比较,可以用视差形式,得到相对深度信息。
  • 代表论文(state-of-the-art method of stereo matching in KITTI benchmark):
    • Fatma Gney and Andreas Geiger,”Displets: Resolving Stereo Ambiguities using Object Knowledge,”
      Conference on Computer Vision and PatternRecognitionRecognition (CVPR), 2015.
      • 使用一组汽车的三维CAD模型作为先验知识,使输出的视差图,适合这些模型,作为长距离正则化器,来解决反射或无纹理的问题。
  • 面临问题:
    • 对于反射或无纹理的表面,不容易恢复出二视图的差异。

2.2 Visual Odometry

  • 定义:
    • 视觉测程[3],是通过分析相关的相机图像,来确定位置和方向的过程。
  • 意义:
    • GPS不可用时,提供 aid localization, 在小范围内;
    • 提供更精确的位置信息。
  • 操作步骤:
    • a. 从 video 中,特征提取;
      • 或者,来自激光雷达系统或立体摄像机,获取三维信息。
    • b. 构造光流(key step);
    • c. 分析光流,评估相机运动
  • 代表工作:
    • V-LOAM:Ji Zhang and Sanjiv Singh, ”Visual-lidar Odometry and Mapping: Low-rift, Robust, and Fast,” IEEE International Conference on Robotics and Automation(ICRA), 2015.

2.3 3D Object Detection

  • 定义:
    • 检测某一类特定语义对象的实例的技术。
  • KITTI benchmark中,检测目标为:Car, Cyclist, and Pedestrian。
  • 目前,大部分方法,都是使用单个相机图像来做,
    • 目前(2015)没有使用 LIDAR 系统或者是 stereo camera(立体相机)提供的3D信息,但这在未来值得研究。
  • 代表论文:
    • Xiaoyu Wang and Ming Yang and Shenghuo Zhu and Yuanqing Lin,”Regionlets for Generic Object Detection,” International Conference on Computer Vision, 2013.

3 关于实时性

  • 实时性的定义:人们通常将实时约束设置为每秒30帧。30帧/秒并不是一个特定的目标要求,这是人眼无法识别的阈值。
  • 软件层次,代表工作:
    • [10] Ge, Junfeng, Yupin Luo, and Gyomei Tei., “Real-time pedestrian detection and tracking at nighttime for driver-assistance systems,” Intelligent Transportation Systems, IEEE Transactions on 10.2 (2009): 283-298.
    • 论文笔记_CV_AD_A Survey of Computer Vision Research for Automotive Systems_第3张图片
  • 硬件层次,代表工作
    • [11] Hiromoto, Masayuki, and Ryusuke Miyamoto. “Hardware architecture for high-accuracy real-time pedestrian detection with CoHOG features,” Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on. IEEE, 2009.
      • 在FPGAs上尝试并行执行计算,进行行人检测;
      • 使用的行人检测特征描述:Co-occurrence histograms of oriented gradients 共现直方图的方向梯度(Co-HOG)。
      • 论文笔记_CV_AD_A Survey of Computer Vision Research for Automotive Systems_第4张图片

4 深度卷积神经网络

  • 卷积神经网络取得显著成功的方面:
    • 目标识别
    • 目标检测
    • 目标分割
  • 这主要是因为CNNs具有良好的表示法(或图像特征)
    • 另外关键的因素是:计算能力的提高和大的标记数据集,这使我们能够将网络扩展到数千万个参数。

 

你可能感兴趣的:(计算机视觉算法,自动驾驶)