AVOD阅读笔记(一):摘要+特征提取----Aggregate View Obeject Detection network

摘要:
  • AVOD: an Aggregate View Obeject Detection network   多视图目标检测网络
  • 使用了LIDAR和RGB图像生成特征。
  • 包括两部分:RPN(区域提案网络)和a second stage detector network(第二步检测器?)
  • RPN可以在高分辨率特征图上执行多模型特征融合,从而对道路上的多类目标生成可Y靠的3D候选目标(performing multimodal feature fusion on high resolution feature maps to generate reliable 3D object proposals for multiple object classes in road scenes
  • second stage detector network:执行精确的定向3D边框回归和分类,以预测三维空间中其尺寸、方向和分类。

  

  • AVOD可用于对小尺寸目标的监测和定位:AVOD中的RPN结构致力于将图像和鸟瞰图特征图中全分辨率的特征要素(feature crop??)作为输入,允许较小尺寸目标产生高召回率的提案。此外,特征提取器可以提高全分辨率的特征图,这对于小尺寸目标的定位精度非常有帮助。

AVOD结构:

AVOD阅读笔记(一):摘要+特征提取----Aggregate View Obeject Detection network_第1张图片

  • 提案方法 :

                        利用特征提取器从鸟瞰图和图像中生成特征图; 

                        RPN利用这两个特征图生成未定向的候选区域     

                        检测网络利用候选区域进行维度细化(dimension refinement?)、方向估计和分类。

  • 从图像和点云中生成特征图
  1. 按照MV3D中的步骤,从一个分辨率为0.1m的点云的体素网格表示中生成六通道鸟瞰图。
  2. 将点云裁剪在[-40,40]×[0,70]范围内,从而包含相机视野内的点。???????
  3. 鸟瞰图的前五个通道是每个栅格单元的最大高度,是由Z轴上[0,2.5]米范围内五个相同的切片生成。
  4. 六个通道信息包含的是每个单元中的密度信息。由

  • 特征提取器

       AVOD阅读笔记(一):摘要+特征提取----Aggregate View Obeject Detection network_第2张图片

  1. AVOD使用了两个相同 特征提取器,图像输入和LIDAR输入各一个。
  2. 特征提取器由两部分组成:encoder(编码器)和decoder(解码器)
  3. 编码器:对VGG-16做了一些修改,主要是将其通道数减半,并在conv4层裁剪网络。因此,编码器将一个M*N*D的图像或者鸟瞰图作为输入,并输出(M/8)×(M/8)×D* 的特征图F。(行人一般是0.8×0.6m,在鸟瞰图中占8×6个像素(分辨率为0.1m)。经过编码器进行8倍下采样后,在输出的特征图中只占不到一个像素。)
  4. 解码器:由FPN启发,设计了自底向上的解码器(bottom-up)将encoder输出的特征图上采样恢复至原始输入尺寸;通过conv-transpose(解卷积),将两个编码器输出的相关联的特征图级联,然后通过一个3×3卷积将两者融合。
  5. 通过encoder和decoder最后得到的特征图具由较高的分辨率和代表性,并且是由RPN和the second stage detection network 共享的。

你可能感兴趣的:(深度学习,AVOD,论文笔记,AVOD)