MIS-SLAM:Real-Time Large-Scale Dense Deformable SLAM System阅读笔记

论文名称:MIS-SLAM: Real-Time Large-Scale Dense Deformable SLAM System in Minimal Invasive Surgery Based on Heterogeneous Computing
即:MIS-SLAM:基于异构计算的微创手术中的实时大规模密集可变形SLAM系统。
1 摘要
  实时的SLAM对于为外科医生或外科手术机器人提供为虚拟现实和增强现实技术非常有帮助。本文提出了一种MIS-SLAM算法:实时大规模密集可变性SLAM,利用立体镜成像,通过充分利用CPU和GPU来进行微创手术。闲散CPU用于ORB-SLAM计算机器人的全局位姿。
  我们解决了之前工作中提出的关键问题,即范围的快速移动和模糊的图像使得范围跟踪失败。 受益于改进的定位系统,MIS-SLAM可以实时实现大规模的范围定位和密集建图。 它可以对当前模型进行变换和变形,并在保持鲜明纹理的同时逐步融合新观察。 以视频形式呈现的公开可用数据集进行的体内实验证明了MIS-SLAM用于潜在临床目的的可行性和实用性。
2 引言
  微创手术存在的问题:缺少视野,视野范围难以定位,对手术范围附近的信息没有缺少了解,这些都导致了必须花大量时间训练外科医生以学习使用演唱的手术工具,从而在狭窄的手术范围内进行操作。
  为了增大外科医生的视野范围,3D laparoscopy,binoculars两种手术试镜通过在手术范围生成两种试图,从而生成3D图像,可以帮助医生更好的理解手术环境。近来,立体视觉被用于AR设备用来优化MIS的效果。如果与立体视觉有关的CV方法能够被整合,并用于实时的变形恢复进而优化相机位姿,将会非常有帮助。立体镜成像的软组织变形问题以在[13]中被解决。
  当前系统中,最重要的问题是如何解决试镜的快速移动导致的追踪失败问题。 我们很清楚,ORB-SLAM系统可以被改进并被整合,从而和密集变形SLAM进行整合。
  我们的方法基于如下改进:

  • (1)我们提供了异构计算的架构用于充分利用GPU(dense deformable SLAM)和CPU(ORB-SLAM)从而恢复和MIS场景下的软组织变形导致的3D结构的密集变形。ORB-SLAM充分利用CPU,从而提供重充足的补足信息给GPU。
  • (2)GPU模块和CPU模块被深层次的整合,用于增强性能。稀疏的ORB特征和全局位姿被上传到GPU 。
  • (3)我们更新了之前的模型点管理系统和融合管理策略 来增强大规模的软组织变形的恢复。相比于广泛使用的TSDF方法,表现更好。
  • (4)实时的可视化在GPU上实现。MIS-SLAM可以在一个台式机上实时处理大规模表面重建。
    2 技术细节
  • A MIS-SLAM 技术总览
      我们的架构可以被分成:初始追踪变形追踪稠密建图。初始追踪由CPU下的ORB-SLAM完成。变型追踪和稠密建图由GPU完成。
      在初始建图阶段,ORB-SLAM首先在CPU中启动;ORB特征和全局pose被从CPU上传到GPU中。这个出事的全局pose极大增强了系统的鲁棒性。
      在变形追踪和稠密建图阶段,在接受完初始的全局pose后,他首先使用第一个深度初始化模型。当每次获得新的观察值,被匹配的ORB特征就会被上传到GPU中。潜在的视觉点从模型中被提取并投影到2D的深度图。一个注册进程被执行,用于估计最佳的全局位姿和非刚性的变形区域。之后,当前模型根据这种转换进行变形以符合当前的形状,并和当前最新的观测结果进行容融合.我们利用CUDA中 图形互操作性的特征来从GPU直接可视化模型。图1展示了整个流程。
    MIS-SLAM:Real-Time Large-Scale Dense Deformable SLAM System阅读笔记_第1张图片
      由于从立体图像生成的点云的精准程度远小于深度感知传感器,我们利用更多特性来生成点云进而修正更新我们的方法。
      每个点包含6个域:坐标 v i v_i vi,法线 n i n_i ni,权重 ω i ω_i ωi,亮度值 C i C_i Ci,时间戳 t i t_i ti,和一个布尔变量状态 S i S_i Si。我们更新初始的视觉点选择方法,用以进行更好的深度标记(算法1)。我们添加 t i t_i ti S i S_i Si,并引入模型过滤方法用来平滑模型,减少噪声点(算法2,3)。
  • B 从立体图像进行深度估计
      ELAS(Efficient Large-scale Stereo)方法被用来进行深度估计。
    https://www.cnblogs.com/riddick/p/8486223.html
  • C 稀疏的关键点匹配和相机的位姿估计
      先前工作的主要问题是:目镜全局位姿的定位不准确导致了轨道的不准确性。基于变形图的方法是典型的model-o-frame的视觉测距过程,缺乏额外的机制来确保全局姿势跟踪稳健性。如果没有良好的相机姿态初始化,密集建图不可避免地会出现漂移或丢失跟踪。为了增强系统的鲁棒性,闲置的CPU会被充分用于ORB-SLAM来提供良好的初始位姿估计,从而增强系统的鲁棒性。ORB-SLAM模块提供ORB特征,这些特征在GPU中被充分利用。这个策略节省了GPU的计算能力:
  • (1)当我们上传匹配的ORB特征时,不需要密集加速鲁棒特征(SURF)提取和原始方法[13]中的匹配步骤
  • (2)[13]中GPU端的视觉测距和RANSAC被CPU端的ORB-SLAM的初始姿势和ORB特征所取代
  • D 变形(Deformation)
      变形图的基本思想是由邻近变形节点定义的局部刚性旋转和平移的加权平均,这些节点在空间中稀疏均匀地分散。每个源点由几个最近的嵌入变形(ED)节点转换到其目标位置,这些节点由位置 g j ∈ R 3 g_j∈R^3 gjR3,仿射矩阵 A j ∈ R 3 × 3 A_j∈R^{3×3} AjR3×3和平移向量 t j ∈ R 3 t_j∈R^3 tjR3定义。实际上,我们对重构模型进行下采样以获得节点并使用单位矩阵初始化 A j A_j Aj,并使用零向量初始化 t j t_j tj。 我们想要解决用于描述变形的节点,并且与模型无关。 对于任何给定的顶点 v i v_i vi,变形位置 v ^ i \hat v_i v^i由ED节点定义为:
    在这里插入图片描述
      其中k表示临近点的数量。 ω j ( v i ) \omega_j(v_i) ωj(vi)是用于变换由每个相关ED节点施加的vi的量化权重。R和T表示刚体的旋转矩阵和平移量。我们通过定义公式2中的权重来限制最近节点的数量。通过将权重设置如下,局部限制空间中每个点的变形:
    在这里插入图片描述
      其中 d m a x d_max dmax是顶点到最近k + 1个ED节点的最大距离。 请注意,所有位姿都在第一帧的坐标中。
  • E energe Function
      按照我们之前的表述[13],增加了两个新术语,以确保全局位姿的稳健性。制定的目标函数由六个术语组成:旋转,正则化,可见点与目标扫描之间的点到平面距离,稀疏关键点对应和全局位姿(新术语)如下:
      在这里插入图片描述
      其中m是ED节点的数量。 我们遵循[19]用两个约束条件旋转和正则化来约束不合理变形的变形图。 所有m个节点都遵循这两个约束。
      rotation. E r o t E_{rot} Erot以下列形式求和所有矩阵的旋转误差。
      MIS-SLAM:Real-Time Large-Scale Dense Deformable SLAM System阅读笔记_第2张图片
      其中, c 1 c_1 c1, c 2 c_2 c2, c 3 c_3 c3表示放射矩阵 A j A_j Aj的列向量。
      Regularization。该项用于防止相邻节点发散在重叠空间上。 有关详细信息,请参阅[13]。
    在这里插入图片描述
      其中 α i j α_{ij} αij是由两个ED节点的欧几里德距离计算的权重。 我们通过将 α i j α_{ij} αij统一设置为1来遵循[19].
      Data Term我们按照算法1来查找模型点的配准并最小化所有配准点的点到平面距离。 对于每个模型点vi,如果它被配准到深度,则假定它是可见点。
      在算法1中, ε d \varepsilon_d εd ε n \varepsilon_n εn是用于测量距离和角度的阈值.P(.)表示3D点到2D点的投影,Γ(·)是2D像素点到3D空间的转化,H(·)是将2D像素从深度转换为3D法线。
      MIS-SLAM:Real-Time Large-Scale Dense Deformable SLAM System阅读笔记_第3张图片
    算法描述;模型点与深度图像配准
      输入:上一帧点云(点的位置 v i v_i vi和法线 n i n_i ni
         当前帧的深度图 D n D_n Dn
         两点的距离阈值
         两个法线的角度阈值
      输出:关于深度图 D n D_n Dn的可视化点集 V n V_n Vn
      for each model point v i v_i vi do
        if (D(P( v i v_i vi)))≠null then
         if || v i v_i vi -Γ(P( v i v_i vi))||< ε d \varepsilon_d εd
         and n i n_i ni-H(P( v i v_i vi))>cos( ε n \varepsilon_n εn)
         then
          Add v i v_i vi to V n V_n Vn
         end
        end
       end
    在提取配准的可见点之后,我们采用反投影方法作为模型到扫描的配准策略,其惩罚预测的可见点vi(i∈{1,…,N})和当前深度扫描D的未对准。数据项是 以下形式的点对面误差之和:
     在这里插入图片描述
      通过将对应的法线与深度D(·)中的像素乘以法线H(·)来计算点到平面距离。 v ^ i \hat v_i v^i是点vi的变形位置。
      如[16]所述,反投影和点到平面策略充分利用了输入深度图像,因此可以在正则化的2D空间中计算雅可比行列式,从而实现快速收敛和对异常值的鲁棒性。
      Corrrspondence(一致性).
      与之前的工作[13]类似,我们也利用RGB信息来增强稳健性。 我们首先跟踪帧到帧的特征点,并最小化从以下形式的第II-C节中描述的特征生成的成对稀疏关键点之间的欧几里德距离。 我们用从ORB-SLAM上传的ORB特征替换先前的Dense SURF.
    在这里插入图片描述
    其中 V ^ i \hat V_i V^i V i V_i Vi是当前帧的3D点和ORB特征的最后一帧的变形点。
      Global Pose我们在以前的表述中添加了这个新术语[13]。 它是通过旋转和平移的变化来衡量的。 第一帧被固定为坐标原点。 我们使用欧几里德距离和欧拉角来定义由ORB-SLAM生成的优化全局位姿(方向 R i R_i Ri和位置 P i P_i Pi)和全局姿势(方向 R ^ i \hat R_i R^i和位置 P ^ i \hat P_i P^i)之间的差异。 它以下列形式呈现:
      在这里插入图片描述
  • F 优化
      我们采用算法1来找到可见点集V进行优化。 我们遵循先前的策略[13]使用LevenbergMarquardt(LM)来解决非线性优化问题。 效率几乎与[13]相同,因为只增加了6个变量(全局方向和平移)。
  • G 利用新观测的数据进行模型更新(Model Update With New Observation)
      受[20]的启发,我们为点管理添加了新属性(时间步和稳定性)。 我们使用算法2的深度融合模型。之后我们按照算法3去除噪声模型点。
      算法2的基本思想是构建三组不同的点云。 关于深度图像,原始模型被分类为注册(组1)和未注册(组2)。 组1中的点与深度图像融合。 之后,未从模型点注册的深度图像中的像素被提升并初始化为新观察(组3)。所有三个组合并并形成新模型。
    算法2:点云与深度图像的融合
     输入:上一帧的模型 P n − 1 P_{n-1} Pn1和当前帧的深度图 D n D_n Dn
        距离和法线阈值 ε d \varepsilon_d εd ε n \varepsilon_n εn
     输出:融合模型 P n P_n Pn
     步骤1:登记并融合带深度的模型(group1),剩余模型为未注册点集(group2) MIS-SLAM:Real-Time Large-Scale Dense Deformable SLAM System阅读笔记_第4张图片

你可能感兴趣的:(MIS-SLAM:Real-Time Large-Scale Dense Deformable SLAM System阅读笔记)