VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP && 2019


作者:Tianxin Shi⋆†Shuhan Shen⋆†Xiang Gao⋆†Lingjie Zhu

研究机构:中科院自动化所,中国科学院大学

自己的想法:

本文使用图像检索、SFM进行3D建模、语义分割、RANSAC求解等技术提出了一个相机定位的混合pipeline,达到了SOTA的性能

论文提到目前可用的数据集有NLCT,KITTI,RobotCar Seasons dataset等。

论文方法介绍

之所以使用语义信息,是因为语义信息基本不受光照、气候、季节等因素的干扰。

VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP && 2019_第1张图片

论文提出的定位pipeline分为5个步骤:

  1. 使用SFM技术(COLMAP)对场景图像数据集进行建模

  2. 通过DeepLabV3+对图像数据集进行分割得到语义信息,然后将其加入到3D模型中的点云信息中,并去除动态目标,得到稀疏的语义3D模型Ms

  3. 根据查询图像 I Q I_Q IQ进行检索,检索模型为NetVLAD。得到前K个最近邻图像集合 I R I_R IR

  4. 对每张 I R i I_R^i IRi,通过最近邻搜索和lowes ratio test 计算 I Q I_Q IQ与之的2D-2D匹配,图中蓝色。

VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP && 2019_第2张图片
图中红色为 I Q I_Q IQ与3D模型之间的2D-3D匹配,绿色为 I R i I_R^i IRi与3D模型之间的匹配。

而语义模型Ms提供了图中绿色的2D-3D匹配,据此可以得到红色的2D-3D匹配,然后可以计算出 I Q I_Q IQ相对于Ms的相机位姿。

接着将所有符合一定条件的3D点云投影到 I Q I_Q IQ中,衡量其语义一致性。

投影条件:
距 离 要 求 : d l < ‖ v ‖ < d u , 角 度 要 求 : ∠ ( v , v m ) < θ 其 中 v = 估 计 的 相 机 中 心 坐 标   −   3 D 点 云 坐 标 距离要求:d_l<‖v‖< d_u,\\ 角度要求:∠(v,v_m)< θ\\ 其中v = 估计的相机中心坐标 \ - \ 3D点云坐标 dl<v<du,(v,vm)<θv=  3D
衡量语义一致性:

统计所有投影后的语义标签与投影前的标签相同的点的数目,归一化后即为语义得分。得分越高说明检索质量越高。

  1. 使用加权RANSAC进行位姿估计

    得到所有候选K近邻图像的语义得分之后,将所有K近邻图像 I R i I_R^i IRi的2D-3D匹配与 I Q I_Q IQ放在一起,来自同一近邻图像 I R i I_R^i IRi的2D-3D匹配具有相同的得分,即该图像的语义得分。归一化所有2D-3D匹配的得分,以此作为RANSAC采样的概率或者权值。

    相比直接去掉低分的候选近邻图像的2D-3D匹配,这种方法仅使用语义信息点的匹配作为位子估计的依据,更加鲁棒。

实验内容以及分析

数据集:RobotCar Seasons 2018,三个阈值: (0.25m,2◦), (0.5m,5◦) and (5m,10◦)

VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP && 2019_第3张图片
前两个是基于几何结构的定位方法,后面三个是基于图像检索的方法,倒数第二个是本文使用常规RANSAC(不加权)、没有语义信息的方法。没有与基于学习的方法进行对比,理由是精度不高。

你可能感兴趣的:(相机重定位)