车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”

Deep Many Task,同时进行车辆检测,部件定位,可视化特征描述及3D维度估计。基于coarse-to-fine的目标proposal结构提升检测性能。Deep MANTA可以定位不可见的车辆部位。

应用
3D车辆定位和方向估计可用于估计车辆速度和方向。

论文第一个贡献是使用车辆特征点编码3D车辆信息,车辆是刚性的,可通过回归的方法预测隐藏的部分。结合3D数据集,将3D点投影到2D图像中的车辆上,选取最佳的3D模型。
第二个贡献是Deep Many-Task CNN,网络输出2Dbbox,part visibility及3D车辆模板。
第三个贡献是使用3D模型(几何信息,可视性)生成真实图像的标记。

Deep MANTA
首先,输入图像经过Deep MANTA输出2Dbbox,车辆几何特征(车辆部件坐标、3D模板相似度)及part可视性属性。然后,inference阶段使用Deep MANTA的输出和3D车辆数据集复原3D方向和位置。

  1. 3D形状及模板数据集
    3D数据集包含几种类型车辆的3D模型(Sedan,SUV),对每个3D模型m,标记N个顶点(3D块)。这些块对应相应的车辆区域。使用坐标点集 S3dm=(p1,p2,...,pN) 表示3D形状,其中 pk=xk,yk,zk 表示kth部分的3D坐标。3D模型的3D模板定义为 t3Dm=(wm,hm,lm) 。3D数据库示意图如下所示:
    车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”_第1张图片

  2. 2D/3D车辆模型
    模型如下表示: (B,B3d,S,S3d,V)
    其中,B是2D的车辆bbox, B3d=(cx,cy,cz,θ,t) 是3D bbox。S是2D部件坐标, S3d 是车辆3D 部件坐标。V={v_k}是part visibility向量,可视性分四类:(1)部件可见,(2)部件被遮挡,(3)部件被自身遮挡,(4)被截断。2D/3D模型示例如下图:
    车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”_第2张图片

  3. Deep MANTA 网络
    coarse-to-fine forward.
    给定输入图像,网络使用RPN返回K个proposals B1 ,提取特征并使用ROI池化到固定尺寸,提取的区域进行前向传播并使用offset变换矫正,得到第二个目标proposal集合 B2 ,重复该过程一次得到最终的bbox B3 。三层矫正过程如下图所示:
    车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”_第3张图片
    Many-task prediction.
    Deep MANTA输出最终的bbox集,对于每个box,MANTA网络同时返回所有的2D 车辆part坐标,part visibility及3D模板相似度T。模板相似度 rm=(rx,ry,rz) 对应将3D模板与真实模板拟合的三个尺度因子。

  4. Deep MANTA Inference
    第一步,Deep MANTA的输出与3D数据库中模板求相似度
    第二步,使用3D形状 S3dc 进行2D/3D匹配,3D形状与2D形状匹配。
    第三步,输出3D bbox坐标和3D part坐标。

Deep MANTA 训练
三层矫正,最小化五个损失函数: LrpnLdetLparts,Lvis,Ltemp
全局损失函数: L=L1+L2+L3
其中,
车辆检测“Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monoc”_第4张图片

你可能感兴趣的:(目标检测)