自动驾驶之多任务方法调研

1. YOLOP

github

  • C++ TRT TX2

  • 我们提出了一种高效的多任务网络,该网络可以联合处理自动驾驶中的目标检测(车,没有红绿灯)、可驾驶区域分割和车道检测三个关键任务

  • 速度: TX2上23FPS;TAITAN XP上41FPS.
    自动驾驶之多任务方法调研_第1张图片

  • 自测结果:
    自动驾驶之多任务方法调研_第2张图片

  • 灵活性:
    支持三种任务中任意任务的训练组合.

  • Encoder

    • backbone: CSPDarknet(YoloV4)
    • Neck: SSP & FPN
  • Decoder

    • Detect Head: anchor-based multi-scale detection scheme. 与YoloV4类似
    • Drivable Area Segment Head & Lane Line Segment Head.
  • Loss:
    加权.
    自动驾驶之多任务方法调研_第3张图片

  • 结果展示
    自动驾驶之多任务方法调研_第4张图片
    自动驾驶之多任务方法调研_第5张图片
    自动驾驶之多任务方法调研_第6张图片

  • 一些不足

      1. 源码中将{‘car’, ‘bus’, ‘truck’,‘train’}视为同一个检测类, 如果需要多类目标检测训练可能比较麻烦
      1. 有issue说TRT推断缺少plugin.so文件.

2. OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving, ICRA2021 oral

github, pytorch
论文
结果展示视频
主页
We have released the onnx model export scripts, which can be used to export and run these models on NVIDIA’s Jetson AGX device.
Surround View fisheye cameras(未去畸变的鱼眼相机,多相机输入)

  • 网络结构:

    • ResNet18, 544x288
    • ResNet50, 544x288
      自动驾驶之多任务方法调研_第7张图片
  • 相机: multi-task visual perception network on unrectified fisheye images

  • 任务:

    • depth estimation 自监督
    • visual odometry (视觉测距) 自监督
    • semantic segmentation
    • motion segmentation: uses two frames and outputs a binary moving or static mask
    • object detection: oriented bounding boxes, curved boxes, ellipses, and polygons
    • and lens soiling detection.(镜片污渍检测)
  • 测速(论文报告)

    • TensorRT (FP16bit)

    • NVIDIA’s Jetson AGX platform
      自动驾驶之多任务方法调研_第8张图片

    • 代码中有转onnx的代码,无trt代码(作者应该用的Python的trt)

  • 效果示意图

3. multi-task-refinenet

自动驾驶之多任务方法调研_第9张图片

github python2
任务: Semantic Segmentation and Depth Estimation
速度: 13ms (硬件未知)
自动驾驶之多任务方法调研_第10张图片

4. MTAN - Multi-Task Attention Network,2018

github, pytorch
论文
思路: 在多任务的feature共享间引入attention
未报告速度.

  • 任务1: 语义分割+深度估计(Image 2 Image) (one 2 many)
    自动驾驶之多任务方法调研_第11张图片

  • 任务2: 语义分割+深度估计+法向量预测

  • 任务3: 10个不同的分类任务 (many 2 many)

5. 其他

5.1 有代码

  • CompositeTasking CVPR2021,python: 语义分割,人体部位分割,非自动驾驶场景
  • LSNet, 2021, python:目标检测、实例分割+人的Pose检测,非自动驾驶场景
  • 多任务模型(乒乓球比赛理解)python, 2020
    • ball detection, Event spotting, Semantic segmentation
    • GTX1080Ti: > 130 FPS

5.2 无代码

  • MultiNet, 2018,无代码: 路面分割+车道线检测
  • DLT-Net, 2019, 无代码:目标检测+路面分割+车道线检测
  • Conditional Imitation Learning (CIL), 2021,无代码:
    • 输入: 单张RGB图像, 本车速度, one-hot vector(左转,右转,直行,沿车道线行驶)
    • 输出: 深度估计,语义分割、交通灯分类(红、黄、绿、None) +控制信号(方向盘、油门、刹车)

5.3 其它

  • 一个汇总multi-task的github

你可能感兴趣的:(自动驾驶,CV,Xavier,自动驾驶,计算机视觉,深度学习)