Visual and Object Geo-localization: A Comprehensive Survey

Visual and Object Geo-localization: A Comprehensive Survey

  • 综述类文章,仅越读intro,以及Geo-localization方向

    • Graph-based method

      • Graph - based cross-view geolocalization explicitly takes the location and appearance of landmarks such as trees, buildings, and the road into a graph.就是把很多标志性建筑的外观和位置纳入考虑,比如树、建筑

      • 每一个节点都是一个landmark,每一条边都是landmark之间的联系

      • 经典论文

        • Building Matching (Tian,2017 CVPR)

          • 作者 Tian

            • Y. Tian, C. Chen, and M. Shah, “Cross-view image matching for geo-localization in urban environments,”in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE) Conference on Computer Vision and Pattern Recognition (CVPR), July 2017

            • 使用了Fast RCNN

            • 针对每一个被检测到的建筑,都制作了一个siamese building matching network孪生建筑匹配网络

            • 用了Contrastive loss

            • 数据集是自己做的

            • 解析比较好的博客

              • 【泡泡一分钟】实现城市环境中定位的交叉视图匹配方法(CVPR-7)

        • Landmark matching( Verde ,2020 IEEE Signal Processing Letters)

          • 作者

            • S. Verde, T. Resek, S. Milani, and A. Rocha, “Groundto-aerial viewpoint localization via landmark graphs matching,” Institute of Electrical and Electronics Engineers(IEEE) Signal Processing Letters, vol. 27, pp.1490–1494, 2020

            • 通过构建矩阵来表示卫星和地面视图的共同可见度

            • 通过识别查询矩阵与参考矩阵的重叠区域,提取候选位置。然后,通过计算每个候选矩阵和查询矩阵的边缘类型,建立类邻接矩阵。这些矩阵通过边的总数进一步归一化。最后,采用基于贝叶斯的后验极大值算法选择最接近匹配的卫星图像

    • Deep Siamese-Like Method

      • 随着CNN的发展和Siamese 孪生网络的发展,deep siamese-like networks越来越流行

      • 在这个领域,使用weight-sharing

      • symmetric sub-networks 并没有达到很好的效果,所以一定要使用不同的权重

      • 经典论文

        • Where - CNN (Lin ,2015 CVPR)

          • T.-Y. Lin, Y. Cui, S. Belongie, and J. Hays, “Learning deep representations for ground-to-aerial geolocalization,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE) Conference on Computer Vision and Pattern Recognition (CVPR), June 2015.

          • 是第一个将CNN 模型 和孪生神经网络结合在一起在这个领域的论文

          • 这篇论文主要是想定位空域图片,而不是后面常常考虑的定位地域图片,这个是oblique aerial view是斜鸟瞰视角,而不是卫星图片,因此有着更多的相似点;(无人机可以参考)

          • 采用了在ImageNet里预训练的AlexNet

          • 最后一个全连接层提取的特征值被normalized,可以获得zero mean and unit standard deviation

          • 采用了contrastive loss

        • MCVPlaces (Workman (2015 ECCV))

          • S. Workman, R. Souvenir, and N. Jacobs, “Wide-area image geolocalization with aerial reference imagery,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE) International Conference on Computer Vision (ICCV), December 2015.

          • 是第一个关注地空之间匹配的孪生神经网络

          • 包含了一个multi-scale 的空域特征提取器,以及一个ground level 地面等级的特征提取器

          • 使用的是Places 数据集来训练的面的特征提取器

          • 提出了CVUSA 数据集,是后面这一领域最受欢迎的数据集之一

        • DBL (Vo, 2016 CVPR)

          • N. N. Vo and J. Hays, “Localizing and orienting street views using overhead imagery,” in European conference on computer vision (ECCV), B. Leibe, J. Matas, N. Sebe, and M. Welling, Eds. Cham: Springer International Publishing, 2016, pp. 494–509.

          • 探索了四种不同的架构:

            • 传统的分类架构、混合孪生分类架构、孪生架构、以及triplet architectures

              • Visual and Object Geo-localization: A Comprehensive Survey_第1张图片

              • 看了一下,讲了一下不同种类的原理

          • 提出了一个Distance- Based Logistic (DBL) loss layer,专用来训练triplet 和 Siamese network

          • 使用Google Maps API收集了一个大规模的数据集,值得注意的是,这个数据集将图片的场景scene放在了对应的卫星图片的中心,同时作者使用了 random rotation 来作为数据增强的手段1

          • 提出来一种 exhaustive mini-batch strategy, 就是有M个样本的话,就可以得到M * 2(M-1)negative

            • 成为了基于三重损失函数训练的跨视角视觉定位的标准操作

              • Visual and Object Geo-localization: A Comprehensive Survey_第2张图片

        • CVM-Net (Hu, 2018, CVPR)

          • 时间 2018

          • 作者Sixing Hu

          • motivation

            • 地面拍的照片通常来讲并不能涵盖所有的地区,天空拍的照片相对来讲能覆盖整个大地

            • 地域和空域之间的巨大的视角差异给匹配造成了很大的困扰和挑战

            • Vo 和 Hays使用一个额外的网络分支,来估计空域的朝向,但是在训练和测试的时候的开销巨大

            • max - margin triplet loss的margin value需要仔细挑选, Vo和Hay虽然选了一个soft-margin triplet loss,这个被证明了是很有效果的,但是

          • idea

            • 将NetVLAD 嵌入在一个CNN的头部,使用NetVLAD来聚合从CNN 获得的局部特征,然后形成独立于局部特征的全局特征值

              • Specifically, we embed the NetVLAD layer [3] on top of a CNN to extract descriptors that are invariant against large viewpoint changes. Figure 1 shows an illustration of our approach. The key idea is that NetVLAD aggregates the local features obtained from the CNN to form global representations that are independent of the locations of the local features.

          • 结论

            • 搭建了CVM-NET-I, CVM-NET-II, 引入了weighted soft-margin ranking loss 有权重的软边界,通过这些方法,显著提升了效率

          • 可能的延申和扩展

            • 关注一些不同的跨视角视觉定位的任务,比如白天和夜间,比如不同的风格的照片

            • 其他的扩展延申的搜索,比如字到图像的搜索。

          • 提到的之前的论文

            • Vo Hay 引入了二分类神经网络,孪生神经网络,triplet network 三重网络

            • 核心的点在于,找到一个图像的可以快速区分和比较的描述子。

            • Sivic提出了一个描述子算法,把一系列的局部特征聚合成视觉单词直方图 Histogram of visual words

            • Nister and Stewenius 创建了一个树状的词汇,可以支持更多的可视化单词‘

            • Jegou 引入了VLAD 描述子,不同于直方图,这个可以将局部特征的残差聚合为聚类质心

            • Arandjelovic 首次引入了NetVLAD,这个就是嵌入到深度网络中来进行端到端的训练的

              • NetVLAD was better than multiple fully connected layers, max pooling and VLAD. 应该是作用类似最大连接层,最大池化等内容,并且效用更好,

            • 在图像检索中,最常使用的损失函数是 max-margin triplet loss,可以保证positive pairs 之间的距离比negative pairs 之间的距离更短

          • 开始阐述这篇论文的方法

            • Goal

              • 在给定的遥感图片库里,找到检索的地面图片的最近匹配

            • 细节:

              • 选用了Siamese like architecture 孪生神经网络

              • 每个框架都包含了两个网络分支

                • 包括本地特征提取local feature extraction

                  • 用了FCN全卷积神经网络

                • global descriptor generation全局描述子生成

                  • 用了NetVLAD,FCN的参数被传输到NetVLAD里去处理

                  • CVM-Net-I and CVM-Net-II 两个框架方案被生成

                    • CVM Net 1

                      • Two independent NetVLADs, 两个分离的NetVLAD被采用

                      • 每个里面都有两组参数群

                      • two groups of parameters in Gi - (1) K cluster centroids; 以及一个distance metric 距离矩阵

                      • 两个NetVLAD的clusters的数量都是一样的

                      • 每个层都生成一个VLAD vector,就是全局描述子,这个是同等向量空间的

                      • 具体的大概是这个样子,通过训练,卫星的图的中心点和地面图的中心点被连接起来

                        • Visual and Object Geo-localization: A Comprehensive Survey_第3张图片

                      • 最终,每个聚类的描述子是这个中心点的所有的残差的加和;卫星图像的计算方式和地面图像的计算方式如下,两种分支的结构是一样的,参数不一样

                    • CVM Net 11 NetVLADs with shared weights,参数共享

                      • 通过孪生神经网络结构搭建;同时,提取local features的特征值的网络也是一样的。提取过了之后,提取出来的特征值被传输给参数共享的两个全连接的层。

                      • 选取参数共享的方式是因为这个已经被证实可以提升

              • Weighted Soft-Margin Ranking Loss 加权软边界排名损失

                • triplet loss 三元损失函数常常被用作图像匹配以及检索任务的目标函数

                • 可以让阳性样本更接近锚点,而非阴性样本

                • 还可以避免决定边界问题,常见的是这样的,但是有个问题就是收敛过于慢,所以赶紧了一下,加了一个权重

                • 后面又做了quadruplet loss

            • 实施

              • 数据集:

                • CVUSA , Vo and Hays

                • 对于三元和四元的Loss, \alphaα​​​​​​选了10

                • VGG16的参数是ImageNet预训练好的,NetVLAD 以及全连接层是预先随机生成的

                • 用的Tensorflow,以及Adam 优化器,学习速率是10^{-5}10−5, dropout 设置 0.9

              • 对于M对的阳性对,有M-1的对应的阴性对

              • 一开始采用了exhaustive mini-batch strategy,可以在一个批里

              • 实验结果

                • 用了top 1%作为评估结果,只要前1%里有正确结果,就算有

                • 结果表明了孪生神经网络参数共享在跨视角视觉定位里是不必要的,并且也是不适合的 CVMNet-1的成绩远超CVMNet-2

              • 添加distractor image干扰图像

                • 添加了很多很多的干扰的新加坡的卫星图片,原数据库是美国的,结果和没加差异不大,可以表明结构的鲁棒性

            • 讨论

              • 本地特征提取方面VGG16远超过AlexNet

                • 因为VGG16更深

              • 孪生神经网络参数共享这一套在这个跨视角视觉定位里不管用

              • quadruplet loss 比 triplet loss 表现更好,不过差异比较小在用VGG的时候

                • 在使用更浅的网络的时候,Quadruplet loss的效果更好

              • 作者后续又在其他的数据集上测算了

        • FCBAM (Cai, 2019 ICCV)

          • Deep siamese-based methods 通常都依赖 metric learning,非常受数据集中难例的影响

            • Metric Learning度量学习

              • 就是类似 KNN算法,就是相似度学习,让类似的目标距离更近,不同的目标距离更远

          • 为了解决这种问题, Cai 提出了一个Hard Exemplar Re-weighing triplet loss,(已经精读过,idea 来自vo)

            • S. Cai, Y. Guo, S. Khan, J. Hu, and G. Wen, “Groundto-aerial image geo-localization with a hard exemplar reweighting triplet loss,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE)/CVF International Conference on Computer Vision (ICCV), October 2019.

          • 他又提出了一个FCBAM,上面都有

        • OriCNN (Liu, 2019 CVPR)

          • L. Liu and H. Li, “Lending orientation to neural net-works for cross-view geo-localization,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE)/CVF Conference on Computer Vision and Pat-tern Recognition (CVPR), June 2019.

          • Geo-localization论文阅读list4_PyBigStar的博客-CSDN博客 看这个博客

          • 他提出了CVACT 数据集,是可以跟CVUSA 掰手腕的数据集

        • CVFT (Shi, 2020 AAAI)

          • Y. Shi, X. Yu, L. Liu, T. Zhang, and H. Li, “Optimal feature transport for cross-view image geo-localization,” Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI) Conference on Artificial Intelligence, vol. 34, no. 07, pp. 11 990–11 997, Apr. 2020.

          • 受OT 启发,将空域特征和地域特征通过

          • Geo-localiztion论文阅读list7_PyBigStar的博客-CSDN博客

          • 看这篇博客

        • SAFA (Shi ,2019 NeurlPS)

          • Y. Shi, L. Liu, X. Yu, and H. Li, “Spatial-aware feature aggregation for image based cross-view geo-localization,” Advances in Neural Information Process-ing Systems (NeurIPS), vol. 32, pp. 10 090–10 100, 2019.

          • 之前记过笔记

            • 时间

              • 2019

            • 作者

              • Shi Yujiao

            • motivation

              • 现在的卷积神经网络,通常将这种问题视作一种metric embedding task,现在由于low recall rates低召回率,表现得并不良好

              • 原因如下

                • 巨大的域差异,包括外观visual appearance 以及几何配置geometric difference,而这些都是被现在的方法忽视的,现在的方法就只是暴力训练,然后表现较差

            • idea

              • 研究了一个,着重观察这些被无视的天生的inherent differences的特点

              • 作者观察到,就是位于空域图像上的同一方向角的像素点,一般都位于对应的地域的图像的垂直方向上

              • 提出了一个两阶段的方法

                • 应用一个regular polar transform 常规的极坐标转化

                  • 这是一个 pure geometric transformation纯粹的几何变换,跟场景的内容无关,所以必然不可能把两个空域对齐 alignment

                • 后面又嵌入了自注意力机制,attention mechanism,这样可以使得不同的域更为接近

                • 为了提高特征表示的鲁棒性,我们引入了一种通过学习多个空间嵌入的特征聚合策略。 a feature aggregation strategy via learning multiple spatial embeddings

                • 现在的方法把这个问题当作一个深度矩阵的学习任务,然后特征上的学习就只是基于图像的内容,但是,两个不同的视角的图片的联系却没有被考虑

                • 事实上,同一个物体的位置,在两个图片里是有强烈的联系的

                • 去研究这些东西,可以显著减少迷惑性,也是这篇论文的关键

                • 对 aerial images 空域的图像采用了polar coordinate transform 极坐标转化,使得能够对齐

                • 极坐标转化后,嵌入了一个 Siamese - type network 孪生神经网络,因为极坐标转换并没有将场景的内容纳入考虑

                • 在空间嵌入模块里添加了自注意力机制

                • 后面又加了一个triplet loss

              • Contributions

                • 实现了有区别的深度表示 discriminative deep representation,让跨视角视觉定位更精确

                • 在精度上有着巨大的提升

              • Related work

                • Jegou 将本地的特征聚合成聚类,被称为VLAD descriptors

                  • 就是把本地的特征集合成一个histogram 直方图,

                  • 被证明是好用的了

                  • 然而,手作的特征仍然是表现不好的

                • Shi等人[15]提出了一个特征传输模块,以弥合地面和航空图像之间的空间和特征响应域差异,但是,对于这个网络来说,可能同时探索特征和几何关系太难了,只是通过metric learning objective

                • 作者结构了构建联系的特征

              • 实施

                • 极坐标转换

                  • 把空域的图片转换,然后简略地评估geometric correspondence gap

                  • 简化了学习的难度,并且只需要学习一个简单的特征对应任务

                  • 把每个空域图片的中心作为极坐标的原点ijinorth direction

                  • 这里没有 ad hoc(点对点的) pre centering 预先设置中心,也没有假设被检索的地面的图片和空域图片中心一致对应

                  • 小的偏移量并不影响极坐标转化的结果,并且通过SPE 模型可以减少这方面的影响

                  • 当产生大的偏移量的时候,这个就是一个negative sample

                  • 把所有的需要被转化的图片转换成相同的W_g × H_g Wg​×Hg​​​​​​​​​​​ ,原来的图片尺寸是 A_a × A_aAa​×Aa​​​​​​​​​​ ,下面这个是及坐标转换的公式

                    • Visual and Object Geo-localization: A Comprehensive Survey_第4张图片

                  • 经过极坐标转化,还是会有很多的差别,但是已经很好了

              • Spatial aware Feature Aggregation

                • 一开始布置了一个backbone network,16层的 VGG 19,来提取地面和极坐标转换过的空域的特征

                • 嵌入了attention mechanism 注意力机制,来提取salient features 显著的特征,所以开发了一个SAFA module,来减轻扭曲

                • 我们的这个模型是基于一个孪生神经网络的输出结果建立的

                • Spatial aware Position Embedding Module

                  • SPE 用来编码被CNN获取的物体的特征的相关位置,输入特征图,SPE就能自动决定一个编码的位置地图

                  • 这个是自注意力之,没有任何的监督

                  • 下面这个是一个流程图,先用了一个最大池化操作,选择那些最割裂的特征,然后采用一个Spatial- aware Importance Generator (这里有两个全连接层,)来生成一个特征编码地图。

                    • Visual and Object Geo-localization: A Comprehensive Survey_第5张图片

                    • 这个方法可以减轻极坐标转化带来的割裂的影响,特征不仅能表现特定的对象的出现,也能反映这个对象的位置

                    • 计算公式

                      • Visual and Object Geo-localization: A Comprehensive Survey_第6张图片

                    • 通过聚合我们的编码的特征,可以提升我们的特征表示

                    • 使用了多重Mulitiple Position - Embedded Feature Aggregation

                      • 就是做了好多个,通过赋予不同的权重,来关注不同的内容,比如有的关注路,有的关注树

              • 训练

                • 应用了一个metric learning 度量学习

                • 应用triplet loss来使得详尽的对子更近,不匹配的对子更远

              • 实验

                • 数据集

                  • 训练用的CVUSA 和 CVACT

                • 先用VGG 16, 然后结果输出到SAFA 里

              • 评估

                • 用的 Top K recall accuracy

              • 结果

                • 选取的是CVM-NET 和 Liu & Li的方法进行比较

                • 全部都远远超过

              • Ablation Study 消融实验,就是设置对照组

                • 就是分别去掉极坐标转换和SPE模型,然后测试一下效果

                • 然后还可以测试一下我们这个算法,在其他人的论文模型上的应用是否可以提升数据

          • 需要假设地面视图图像的位置总是在航空图像的中心对齐,事实上很难做到

        • DSM (Shi ,2020 CVPR)

          • Y. Shi, X. Yu, D. Campbell, and H. Li, “Where am i looking at? joint location and orientation estimation by cross-view matching,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE)/CVF Con-ference on Computer Vision and Pattern Recognition (CVPR), June 2020.

          • Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching

            • 时间

              • 2020 CVPR

            • 作者

              • Shi Yujiao

            • idea

              • 这里面提到的,这个领域的最大的问题

                • 就是巨大的视角差异,不同的视角之间的,包括外观和物体的位置的区别

                • 方向如果不确定,那么就会引起地理位置上的模糊并且加大了搜寻的范围

                • 标准的相机是有限的视角,那么就是减少了地域图片的辨别能力

              • 两个值得注意的点

                • (i)图像中的水平线(平行于方位轴)具有近似恒定的深度,因此对应于航空图像中的同心圆;

                • (ii)图像中的垂直线深度随y坐标增加,因此对应于航空图像中的径向线。

                • 简单来说,就是水平线,横着的线,在空域里是一个圆,然后竖着的线,就是 radial line 经向线,类似下面这个,就是经线纬线

                  • Visual and Object Geo-localization: A Comprehensive Survey_第7张图片

                • 然后他用了一个及坐标转换

              • 部署了一个two - stream CNN 来学习一些联系,提出了一个DSM 模块,可以来实现这个目标,具体来说,就是计算了空地特征之间的关系

            • Contribution

              • 无论Field of View 如何,第一种可以估计位置和朝向的,第一个同时考虑location和orientation的方法

              • 提出了Dynamic Similarity Matching module去计算feature的相似度,从而得到ground images的orientation

              • achieves significant performance improvements

            • 一些相关的

              • Liu & Li

                • 朝向提供了一些重要的线索,可以用来决定地面图像的位置

            • 理论细节

              • 流程图

                • Visual and Object Geo-localization: A Comprehensive Survey_第8张图片

                • 如上图所示,整个方法的流程主要分为3个部分。首先第①部分,本论文利用Polar Transform将aerial images全部转为ground images。然后,本论文使用vgg16作为backbone提取feature maps,这里不像以前的方法把图像变成一个向量的representation,而是最后输出一对feature volume。这样做的目的就是为后续进行圆周卷积提取orientation做准备。

                •  第②部分就是计算这对feature volume的correlation。这里采用的计算方式就是圆周卷积。最后correlation最大的地方就是ground images的朝向。

                •  第③部分就是根据前一步得到的orientation将Aerial Features进行裁剪,然后与Ground Features进行距离计算。

              • 细节

                • 地面的摄像头是垂直于地面的,然后空域的摄像头是平行于地面

                • 因为是水平方向旋转的,那么就要确保CNN 将变换图像的最左侧和最右侧视为水平并列

                • 用VGG16作为底层框架,主要用前十层

                • 因为极坐标转化是水平方向的转化,那么就会带来垂直方向的volume失真,所以修改了后面三层的参数,降低了特征图的高度,保留了宽度

                  • 对垂直方向的失真更加宽容

                • 降低乐feature channel number 到16

                • Dynamic Similarity Matching

                  • 拥有了朝向,就可以比较特征

                  • 但是,朝向并不是永远可以得到,并且朝向的错误会提升定位的困难程度,尤其是视域是有限的时候,

                  • 人类在地图上给自己定位的时候,是通过自己已经看到的东西定位的

                  • 通过azimuth angle axis方位角来计算,简单来说就是用inner product

                    • 得分最大的那个位置,就是这个地面图片和空域图片的相对角度

                  • 当地面的图片是一个全景图的时候,不论朝向知不知道,相似度结果就是L2Distance 2(1-max([Fa*Fg](i))

                  • 如果有多个相同的最高分,那么随机选择一个,因为这说明,这个空域的图像有不可避免的对称性

              • 表现

                • Visual and Object Geo-localization: A Comprehensive Survey_第9张图片

                • 提升相当显著

        • VIGOR: (Zhu, 2021 CVPR)

          • S. Zhu, T. Yang, and C. Chen, “Vigor: Cross-view image geo-localization beyond one-to-one retrieval,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2021, pp. 3640–3649.

          • 之前的许多的数据集都是要求地域的图像在空域的图像的中心,并且是一一对应的模式

          • Zhu在这篇论文提出了一个数据集,是多对一的模式,自此之后,这个领域进入了多对一的时代

          • 论文里除了Positive 和 Negative 对,还提出了Semi Positive 对,就是那种,地域的图片在空域的图片里,但是不是在正中心的

            • Visual and Object Geo-localization: A Comprehensive Survey_第10张图片

          • 采用了和SAFA 一样的架构,不过为了估算摄像机的偏移值,添加了一个计算偏移值的预测网络

          • 最后采用了一个IOU-Based 的Loss

        • AlignNet (Zhu, 2021 WACV)

          • S. Zhu, T. Yang, and C. Chen, “Revisiting street-to-aerial view image geo-localization and orientation esti-mation,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE)/CVF Winter Conference on Applications of Computer Vision (WACV), January 2021, pp. 756–765.

          • Zhu 研究了过往的模型里的alignment information 对准信息的效应

          • Geo-localiztion论文阅读list7_PyBigStar的博客-CSDN博客 看这篇博客,简单来说就是关注了对齐的问题,之前的都是默认对齐的或者提前做成对齐的数据集,他这里调研了一下如果不是对齐的效果很差,然后提出了一种对齐的方法

        • Seeing the Unseen (Rodrigues, 2021 WACV)

          • R. Rodrigues and M. Tani, “Are these from the same place? seeing the unseen in cross-view image geo-localization,” in Proceedings of the Institute of Electri-cal and Electronics Engineers (IEEE)/CVF Winter Con-ference on Applications of Computer Vision (WACV), January 2021, pp. 3753–3761.

          • 作者提出了一个创新性的数据增强方法,实现了利用现有模型的分割图对图像的切割,

        • LPN (Wang, 2021 TCSVT(CCF B))

          • T. Wang, Z. Zheng, C. Yan, J. Zhang, Y. Sun, B. Zheng, and Y. Yang, “Each part matters: Local patterns facili-tate cross-view geo-localization,” Institute of Electrical and Electronics Engineers (IEEE) Transactions on Cir-cuits and Systems for Video Technology (TCSVT), pp. 1–1, 2021

          • 提出了一种Local Pattern Network, 是一个端到端的可自学习的模型,可以从空域和地域都提取特征

          • Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization

            • 时间

              • 2021

            • 作者

              • 杭州电子科技大学自动化学院(人工智能学院)智能信息处理实验室博三学生王廷宇

            • idea

              • 无人机导航,纳入了第三个图像,即:空域、地域、无人机视角

              • 关注了图像邻近区域提供的信息

              • 灵感来自于人类视觉系统解释和匹配不同观点的同一场景的过程。在识别两个不同平台的地理场景时,人类视觉系统通常采用分层处理的方式来提高判断的准确性。具体来说,人类视觉系统首先关注同一地理目标是否包含在不同的视点场景中。然后,人类视觉系统将检查地理目标周围的上下文信息,以验证匹配的正确性。当没有显著的地标时,人们通常会借助地图来寻找有区别的邻近地区。

            • method

              • 提出了一个Local Pattern Network (LPN)

              • 具有三个分支,是孪生神经网络的扩展,分别包括卫星视角、无人机视角、地面视角

                • Visual and Object Geo-localization: A Comprehensive Survey_第11张图片

                • 卫星视角和无人机视角共享权重

              • 利用ResNet作为特征提取骨架

              • 采用了“方环划分策略来划分特征”,地理目标一般分布在图像的中心,而上下文信息则呈辐射状分布在图像的四周。基于这种语义信息分布的假设,正方形环形分区的中心可以近似地位于特征映射的中心。

                • Visual and Object Geo-localization: A Comprehensive Survey_第12张图片

    • Generative Method

      • 这种方法就是利用GAN,给定一个航拍的图像,然后通过GAN生成地域图像,生成的时候会保留航拍图像的特征,通过这种方法,可以有效提升精度

      • 随着GAN 领域在空-地领域的发展,促进了以下两种GAN 的跨视角方法

      • SAFA - GAN (Toker,2021 CVPR)

        • A. Toker, Q. Zhou, M. Maximov, and L. Leal-Taixe, “Coming down to earth: Satellite-to-street view syn-thesis for geo-localization,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2021, pp. 6488–6497.

        • 时间

          • 2021

        • 作者

          • PhD Student Technical University of Munich

          • Aysim Toker

        • idea

          • 极坐标转换 polar coordinate transformation 是一个出色的图像检索的预处理步骤

          • GAN是一个出色的生成逼真图像的工具,但是在用于跨视角视觉定位的时候,并不足够的准确,缺乏强烈的激励来让图像生成保留输入图像的内容,而且不允许端到端的培训

          • 因此对于图像预处理的要求以保留更多图像本身的内容为重点

          • 现在的工作往往把图像合成和图像检索分割开来,但是协同合并的效果是很显著的;所以这篇论文的核心思想是把跨视角图像检索和

          • 所以他就把极坐标转换和GAN两者结合起来了,先用极坐标系转换将卫星图像转换为合成街景图像,再利用这个初步合成的街景图像作为GAN的输入,最后利用GAN将合成街景图像生成为真实街景图像。也就是说本篇论文在使用GAN的时候,先用合成街景图像作为先验输入,可以减少GAN直接从卫星图像转为街景图像的难度,并且增加精度

        • method

          • 极坐标转换

            • 俯视图卫星图像中的圆形线在地面视图中变成水平线。反之亦然,在新的坐标集合中,放射线与垂线对应。

            • 极坐标转换尊重源图像的内容,基本上保留了图像场景中的基本布局

            • 有缺点

          • 很难完全消除差距,比如天空就不能完美的转换还原

          • GAN

            • 可以通过GAN生成高度逼真的图像

          • 系统结构图

            • Visual and Object Geo-localization: A Comprehensive Survey_第13张图片

          • 这篇论文需要补充一些GAN的相关知识,还需要去读一下GAN的有关论文

      • Feature Fusion GAN (Regmi, 2019 ICCV)

        • [44] K. Regmi and M. Shah, “Bridging the domain gap for ground-to-aerial image matching,” in Proceedings of the Institute of Electrical and Electronics Engineers (IEEE)/CVF International Conference on Computer Vi-sion (ICCV), October 2019.

        • 原理雷同之前看过的那个同作者的论文,他是把卫星试图特征和街景特征融合了,详情见下面

    • Evaluation

      • 跨视角视觉定位常用的衡量方法有三个:

        • recall accuracy at top-K (top-K 的召回率)

          • 这是最受欢迎的一种评估方法,召回率就是说,结果的前面k个里面正确的/全部正确的,也就是说,总共n个正确的,你这个k里到底找回了几个正确的这个率;精确度就是k个里面正确的数量/k

            • Visual and Object Geo-localization: A Comprehensive Survey_第14张图片

          • 常常使用Similarity 来衡量相似度

          • 不过对于一对一的问题,是绰绰有余的,多对于就不够看了

        • Average Precision (AP 平均精准度)

          • 在多对一的检索的问题上,基本上都用AP了,就是Precision-Recall curve下面的面积

          • PR曲线就是,在满足一定召回率的条件下,精确度是多少

        • hit rate

          • 是Vigor提出的一种独特的评价方法

          • 就是,只要包含,就算一次hit,hit ratio就是成功的hit和所有的图像的数量的比率

    • Dataset

      • CVUSA dataset

        • 第一个数据集

        • 35532对训练集和8884对低空集

      • CVACT dataset

        • 128334对,里面有35532对训练集,8884对验证集,以及92802对测试集

      • Vo dataset

        • 关注于定位图像中场景的位置,而不是图片的位置本身

      • UrbanGeo dataset

        • 集合了三个城市的照片

        • 作者把地域的图片上的每一个建筑物都加了boxes

      • VIGOR

        • 是一个最近才发布的数据集,收集了四个城市的照片

        • 这个数据集更加真实,而且包含了很多的高层建筑的阴影,以及彼此之间的交叉碰撞

        • 建筑物并不在中心

        • 一个地域的图片可能被多个空域的卫星图片覆盖

        • 包含了90618 个空域图片和105214个地域全景图

      • University-1652

        • University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization | Proceedings of the 28th ACM International Conference on Multimedia

        • Z. Zheng, Y. Wei, and Y. Yang, “University-1652: A multi-view multi-source benchmark for drone-based geo-localization,” in Proceedings of the 28th ACM Inter-national Conference on Multimedia, ser. MM ’20. New York, NY, USA: Association for Computing Machinery, 2020, p. 1395–1403.

        • 这是一个最新发布的基于无人机drone-based的跨视角的数据集

        • 提供了三个视角,无人机视角,地域视角,以及卫星视角

        • 这个数据集着重于不同视角中的建筑匹配

        • 包含了1652个不同的建筑物,其中有1402个建筑包含了三种视角,平均分配给了训练集和测试机

        • 平均每个建筑都出现在了54个无人机视角的图片里以及一个卫星视角

    • Future Development aspects

      • 黑暗环境下的跨视角视觉定位

      • 跨视角的视频定位

你可能感兴趣的:(论文精读笔记)