论文笔记:An iterative framework with active learning to match segments in road networks

CARTOGRAPHY AND GEOGRAPHIC INFORMATION SCIENCE  2023

1 intro

1.1 背景

  • 当地理实体以不同的方式表示和存储在不同的来源中时,匹配和整合使得可以获得更详细的空间数据。
  • 地图匹配的关键是寻找对象之间的匹配对应关系,并建立在不同数据库中表示相同地理实体的对象之间的关联关系

  • 传统的匹配方法主要基于利用对象的几何、属性和拓扑信息的相似性来获取匹配结果
    • 尽管这些自动匹配算法在效率方面表现良好,但精度往往无法满足实际要求
    • 在处理道路网络的复杂结构化数据时存在精度方面的挑战,特别是考虑到道路交叉口和多车道的情况
      • 有两种策略可供选择
        • 改进匹配算法,以自动提高匹配精度
        • 利用人工交互的反馈信息来提高匹配精度
  • 概率松弛方法是一种道路网络自动匹配算法
    • 主要通过构建两个不同对象之间的匹配概率来确定匹配关系
    • 关键在于概率矩阵将在迭代过程中逐渐收敛,从而使结果更可靠
    • 对于道路网络数据,概率矩阵主要是通过计算几何相似性来构建的,然后通过拓扑关系的相似性来实现矩阵的迭代优化

1.2 论文思路

  • 论文将交互视为提高道路匹配精度的潜在策略
    • 引入交互肯定会增加手动修正匹配的操作时间
      • 在时间和精度之间的平衡是一个关键问题
        • ——>采用主动学习来解决
          • 过滤对结果影响最大的道路
          • 人只需要检查当前迭代中最重要的对象
  • 将主动学习作为一个模块集成到道路匹配的概率松弛模型中
    • 网络中的所有道路最初被视为未标记的数据
    • 经过概率松弛算法处理后,稳健匹配对中的数据被视为标记数据
    • 然后,使用查询函数遍历道路匹配的概率矩阵,并从未标记的道路中选择对匹配结果影响最大的道路匹配对
    • 接着用户对匹配对进行反馈。如果匹配对是正确的,则相应的匹配概率将增加;否则,概率将减少
    • 上述操作之后,查询的道路匹配对将从未标记的数据集中删除
    • 再次使用概率松弛算法迭代修改后的概率矩阵,并重复之前的步骤,直到获得满意的结果
  • ——>通过很少的人机交互,不仅可以更新手动校正的匹配对,还可以自动重新匹配邻近的道路,以适应修改后的概率
论文笔记:An iterative framework with active learning to match segments in road networks_第1张图片

 

2 模型

2.1 整体框架

论文笔记:An iterative framework with active learning to match segments in road networks_第2张图片

 2.1.1 将概率松弛算法应用于获得道路匹配的初始结果

2.1.1.1 概率矩阵初始化

  • 首先,候选道路匹配对通过构建缓冲区进行过滤。
  • 然后,基于道路的几何特征(距离、方向和长度)计算相似性。
  • 最后,根据相似性差异计算初始概率矩阵。(概率矩阵的定义后面会介绍)

2.1.1.2 概率矩阵的迭代更新

  • 匹配对的邻近匹配概率越高,匹配对越正确
    • ——>通过计算相邻道路的兼容系数和支持系数来更新概率矩阵
  • 概率矩阵被迭代多次并进行修改,直到最小概率差异收敛到一定阈值

2.1.1.3 选择匹配对

  • 概率松弛利用结构相似性准则在道路网络中实现全局最优匹配
  • 通过比较节点和弧之间的结构相似性来确定最终的匹配模式

2.1.2 使用主动学习策略调整匹配结果

  • 主动学习模块中的查询函数将计算未标记样本池中每个道路的不确定性,并根据查询策略选择一个对象进行手动处理
  • 由于反馈的结果,相关的匹配系数将被修改,并且推荐的道路将被添加到标记样本池中
  • 然后,概率松弛匹配模型将再次运行

2.1.3 重复上述两步直到达到要求

2.2 道路网络匹配的概率松弛算法

  • 同一区域的道路网络可能因数据收集时间、尺度和采集平台而有所不同

论文笔记:An iterative framework with active learning to match segments in road networks_第3张图片

2.2.1 初始概率矩阵的建立

  • g^1,g^2 是相同区域的两个路网
    • 由于g^1,g^2中存在不同,我们假定g1中的弧(边)数量为m,g2中的弧数量为n
    • 记g1中的边集合为e_i^1 \in \sum e^1, i \in \{1,m\},g2中的边集合为e_j^2 \in \sum e^2, j \in \{1,n\}
    • e_i^1的起止点为v^1_{iF},v^1_{iT}
  • 为 g1 中的任何边构建缓冲区,在 g2 中与缓冲区相交的弧被视为候选匹配对象
    • 基于候选匹配对的几何相似性计算初始概率
    • 道路之间的距离、方向和长度差异被用作计算几何相似性的评价指标
      • 分别构建了 Pdis、Pdir 和 Plen(矩阵维度为 (m + 1) × (n + 1))
    • 通过加权平均计算可以得到初始概率矩阵 P
      • W1,W2,W3分别是与每个指标对应的权重,为0.3,0.4,0.3
      • 论文笔记:An iterative framework with active learning to match segments in road networks_第4张图片
        • p_{i,j} (i \ne -1, j \ne -1)表示g1中的边i匹配g2中的边j的概率
        • 有一些边,尽管在g2缓冲区中/g1中,但是不和任何边匹配
          • p_{i,-1}表示g1中的边i不和任何边匹配
          • p_{-1,j}表示g2中的边j不合任何边匹配
          • i=-1,j=-1的时候,pij没有实际意义,设置为0

       

       ,

2.2.2 结合边的拓扑修改初始概率矩阵

  • 为了获得更准确的匹配结果,初始概率矩阵应通过结合边的拓扑进行修改

论文笔记:An iterative framework with active learning to match segments in road networks_第5张图片

  •  引入兼容系数 C(i; j; h; k) 用于更新概率矩阵
    • 主要由匹配对 (i, j) 和匹配对 (h, k) 之间的角度 α、β,弧 h 和弧 k 的长度比以及两端节点的距离 d1、d2 决定
    • 论文笔记:An iterative framework with active learning to match segments in road networks_第6张图片
      • (3)的右下应该是ε
      • \rho_{dis}是两个道路网络的Hausdorff距离之和。
      • \rho_{dir}的计算与\rho_{dis} 的计算的区别在于,距离被方向取代。
      • ration 是弧 h 和弧 k 长度的比较。在本文中,它通过一个除数来表示,分子和分母可以交换,以确保该值小于1

2.2.3 支持系数

论文笔记:An iterative framework with active learning to match segments in road networks_第7张图片

  •  除了兼容系数之外,还需要计算匹配弧的自兼容系数 C(i; j; h; j),以确定道路是否是1:N匹配或M:N匹配关系
    • 根据较短道路的长度,将较长道路分成两个部分
      • 使用公式(2)计算了自兼容系数
    • 评估长边j内部“弧-节点-弧”结构的相似性
  • 支持系数则评估此长边j外所有“弧-节点-弧”的相似性
    • 假设(i,j)之外,在V_{iF}^1处有3组可能的邻近匹配对(h1,k1),(h2,k2),(h3,k3)

       

    • q_1^{(r)}(i,j)=q_{1T}^{(r)}(i,j)+q_{1T}^{(r)}(i,j)
      • 值越大,表示(i,j)对的临边支持度越大
  • 此时经过支持系数更新之后的概率矩阵为
    • 论文笔记:An iterative framework with active learning to match segments in road networks_第8张图片
      • C1,C2分别是候选路段
      • idmin1、idmin2 和idmin3 分别是边 i 与所有候选匹配边之间距离、方向和长度的最小差异。
      • dmax1、dmax2 和dmax3 分别表示 g1 中所有边与其候选匹配边之间的最大几何差异。

     

2.2.4 从概率矩阵到路段匹配

  • 由于概率矩阵不能直接展示匹配结果,需要从矩阵中进一步提取信息
    • 使用每个候选匹配对(i; j)之间的结构相似性Si;j来选择匹配结果
        • SF和ST是两个节点处候选匹配对的结构相似性
          • 结构相似性是计算节点处所有候选匹配对的最大概率之和
        • 如果Si;j是i和j的所有候选匹配边中的最大值,则可以将匹配对(i; j)视为稳健的匹配对
  • 为了识别M:N匹配模式,需要扩展满足以下两个条件的匹配对

    • 匹配对在要扩展的节点处具有最大的结构相似性Si;j

    • 在扩展后,两端节点之间的距离减小

    • 论文笔记:An iterative framework with active learning to match segments in road networks_第9张图片

      • 比如(i; j)是一个稳健的匹配对

        • Sa2;x2大于Sa1;x2、Sa3;x2、Sa1;x1、Sa2;x1和Sa3;x1

        • 在红色节点处匹配对(a2; x2)之间的距离小于节点v1iF和v2jF之间的距离

        • 将匹配对(a2; x2)添加到集合中

           

2.3 主动学习以调整路网匹配

  • 在论文中,概率松弛可以被视为需要不断使用标记数据进行训练
    • ——>主动学习能够协助对概率松弛的训练样本进行标记
  • 论文采用了基于样本池的主动学习方法,将没有稳健匹配对象的边的集合作为未标记样本池
    • 优势在于可以同时收集大量未标记数据
    • 通过评估和排序整个未分类实例集合,它能够选择最佳实例进行查询

3 实验

3.1 数据集

北京的数据(两个数据源) 

论文笔记:An iterative framework with active learning to match segments in road networks_第10张图片

论文笔记:An iterative framework with active learning to match segments in road networks_第11张图片

3.2 主动学习的一个例子

论文笔记:An iterative framework with active learning to match segments in road networks_第12张图片

 3.3 松弛概率算法 VS 松弛概率+主动学习 匹配效果

论文笔记:An iterative framework with active learning to match segments in road networks_第13张图片论文笔记:An iterative framework with active learning to match segments in road networks_第14张图片

 

 

 

你可能感兴趣的:(论文阅读)