多模态学习:网络框架

多模态学习:网络结构

  • 论文解读:mmMOT
  • 代码解读:mmMOT

论文解读:mmMOT

论文链接:https://arxiv.org/abs/1909.03850
代码链接:https://github.com/ZwwWayne/mmMOT.
2019ICCV会议文章:《Robust Multi-Modality Multi-Object Tracking》(具有鲁棒性的多模态多目标跟踪)

  • 面向领域:自动驾驶中的各种视觉感知任务

  • 摘要:多传感器感知是保证自主驾驶系统可靠性和准确性的关键,而多目标跟踪(MOT)通过跟踪动态对象的连续运动来提高其可靠性和准确性。目前的多传感器多目标跟踪方法要么缺乏可靠性,依赖单一的输入源,要么在后期处理中融合多个传感器的结果,而没有充分利用固有信息,不够准确。在本研究中,设计一种通用的多模态MOT框架(mmMOT)。传感器)能够独立地发挥其作用以保持可靠性,并可以通过一种新的多模态融合模块进一步提高其准确性。mmMOT可以以端到端的方式进行训练,对每个模态的基本特征提取器和交叉模态的邻接估计器进行联合优化。mmMOT也首次尝试在MOT中对数据关联过程中的点云深度表示进行编码。

  • 测试集:KITTI数据集上。

  • mmMOT网络结构:

    多模态学习:网络框架_第1张图片
    图片来源:本论文截图

    该网络框架包含4个模块,分别是对象检测器、特征提取器、邻接估计器和最小代价流优化器。
    (1)对象检测器:分别在图像序列中和3维点云数据中定位感兴趣的对象;
    (2)特征提取器:独立地从每个传感器提取对象特征;
    (3)邻接估计器:该估计器与模态无关,接受融合模型中的特征,推导出最小成本流图计算所需的分数;
    (4)最小成本流优化器:根据预测分数获取线性规划最优解。

  • 融合模型

    多模态学习:网络框架_第2张图片
    图片来源:本论文截图

    (1) 具有鲁棒性的融合模型:为了更好地利用多传感器的特征,同时保持跟踪每个传感器的能力,我们的鲁棒融合模块被设计成具有融合多模态特征的能力,以及从单一模态处理原始特征的能力;假设不同模态的特征向量表示为 F S = F i s F^S = {F^s_i} FS=Fis,其中S表示传感器个数,融合特征向量表示为 F i f u s e F^{fuse}_i Fifuse。不同模态的特征向量和融合特征向量大小保持一致,大小均为 1 × D × ( N + M ) 1 \times D \times (N+M) 1×D×(N+M),其中D=512为向量长度,N+M为两帧间检测到的目标数。融合模型输出不同模态特征 F S F^S FS和融合特征 F i f u s e F^{fuse}_i Fifuse
    (2)融合模型A:一种常见的方法是将这些特征串联起来,使用点向卷积与权值W来调整输出向量的长度,使其与单个传感器的特征相同,如下所示:
    F i f u s e = W ⊗ ( F i 0 , ⋯   , F i S ) F^{fuse}_i=W \otimes (F^0_i,\cdots,F^S_i) Fifuse=W(Fi0,,FiS)
    其中, ⊗ \otimes 表示卷积, C O N C A T ( ⋅ ) CONCAT(\cdot) CONCAT()为串联运算符。
    (3)融合模型B:另一种直观的方法是将这两个特征与加法融合,对每种模态的特征进行重新设计,并按如下方式将它们相加:
    F i f u s e = ∑ s = 0 S ( W s ⊗ F i s ) F^{fuse}_i= \sum^S_{s=0} (W^s \otimes F^s_i) Fifuse=s=0S(WsFis)
    其中, W s W^s Ws表示第s个传感器特征对应的卷积核。该模块通过对各传感器信息的采集,使融合模态的相关特性更接近于单个传感器的相关特性。由于相关运算是乘法或减法运算,因此邻接估计器能够处理不同的模态。
    (4)融合模型C:该模型介绍的注意力机制引导来自不同传感器的信息融合,因为传感器信息可能不同的意义在不同的情况下。例如,点云特征可能是更重要的是当照明条件不好,和图像特征点云时可能更重要的影响在雨天。首先计算每个传感器的注意力图 G i s G^s_i Gis,如下所示:
    G i s = δ ( W a t t s ⊗ F i s ) G^{s}_i= \delta(W^s_{att} \otimes F^s_i) Gis=δ(WattsFis)
    其中, δ \delta δ是激活函数, W a t t s W^s_{att} Watts是卷积参数。由于期望 W a t t s W^s_{att} Watts能够根据特征本身来预测其重要性,而sigmoid函数将注意力图规范化为0到1。因此修改信息融合公式如下:
    F i f u s e = 1 ∑ s = 0 S G i s ∑ s = 0 S G i s ⊙ ( W s ⊗ F i s ) F^{fuse}_i=\frac{1}{\sum^S_{s=0}G^s_i}\sum^S_{s=0} G^s_i \odot (W^s \otimes F^s_i) Fifuse=s=0SGis1s=0SGis(WsFis)

  • 深度邻接矩阵学习:根据提取的多模态特征,邻接估计器根据每种模态推断最小代价流图中的置信度、亲和力、开始和结束分数。这些特征对于邻接估计器的每个分支都是共享的,即置信估计器、邻近估计器、开始估计器和结束估计器。将置信度估计器作为一个二分类任务来学习是很简单的。重点放在其他两个分支的设计上。
       相关处理:为了推断相邻需要每个检测之间的关联,利用神经网络的优势依次处理每个通道。在这项工作中,比较三个简单而有效的操作如下:

    • 点乘: F j k = F j i ⊙ F k i + 1 F_{jk}=F^i_j \odot F^{i+1}_k Fjk=FjiFki+1
    • 绝对值减法: F j k = ∣ F j i − F k i + 1 ∣ F_{jk}=|F^i_j - F^{i+1}_k| Fjk=FjiFki+1
      ⊙ \odot 相当于深度相关滤波器,其中滤波器大小为 1 × 1 1 \times 1 1×1。减法测量两个向量的距离。通过取相减的绝对值使特征可以交换,并且不知道检测的时间,这使得网络更加健壮。

代码解读:mmMOT

  • main函数
多模态学习:网络框架_第3张图片
图片来源:本论文代码截图
主函数提供5个输入参数,分别为: config(配置文件路径),load-path(模型读取路径),result-path(结果保存路径)

config配置文件:

模型创建:

多模态学习:网络框架_第4张图片
图片来源:本论文代码截图

你可能感兴趣的:(多模态学习:网络框架)