ClusterVO: Clustering Moving Instances and Estimating Visual Odometry for Self and Surroundings

ClusterVO流程

ClusterVO: Clustering Moving Instances and Estimating Visual Odometry for Self and Surroundings_第1张图片
ClusterVO将经过同步和校准的立体图像作为输入,输出相机和运动物体的位姿。 对每一帧使用YOLO进行目标检测,并提取ORB特征。为了对运动物体进行跟踪,本文首先通过多层概率关联将边界框和特征分别关联到聚类和地标点。 然后,本文对所有关联到地标点的特征点执行条件随机场(CRF),以确定当前帧的聚类分割。 最后使用运动先验和边缘化对滑动窗口上的所有状态进行位姿估计。

多层概率关联

静止的地标点可以和特征点进行稳定的关联,动态特征点和bounding box需要进行多层概率关联。

  • 对于每一个地标。根据所属聚类上一时刻的速度,预测这一时刻所在的位置。基于地标点位姿的不确定性和地标点和特征点的描述子的相似度,计算地标点和特征点的关联概率。
  • 计算一组可能的bounding box和聚类的匹配概率的香农交叉熵,对于交叉熵较小的候选匹配,进行特征匹配等低层语义确认。

用于聚类的条件随机场

对于地标点属于聚类的权重,考虑一元权重和二元权重。

  • 一元权重包括地标点和当前帧bounding box,聚类中心的距离。过去几帧中地标点和距离中心的距离。
  • 二元权重使距离接近的地标点归属于同一个聚类。
    每一帧都更新地标点属于哪个聚类的权重,权重降到0时,更新地标点的所属关系。

基于滑动窗口的状态估计

维持时间帧和空间帧两种帧用于本地优化,时间帧如果大于阈值,就把最后一帧移除。如果这一帧和空间帧最新的一帧距离较远或者共视点很少,把这一帧加入空间帧。空间帧数量超过阈值时,对最旧的一帧进行边缘化/。
在BA中,对于静态点,考虑边缘化之后的希尔部,对于动态点,考虑无加速度白噪声的运动。

你可能感兴趣的:(ClusterVO: Clustering Moving Instances and Estimating Visual Odometry for Self and Surroundings)