论文阅读笔记2:NetVLAD

题目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、

团队:PSL Research University/Tokyo Institute of Technology

解决的问题:我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置

创新点:这篇文章主要有3个创新点: 1. 为场景识别任务构造出了一个可以直接端到端训练的CNN模型结构,NetVLAD就是该模型的一个layer;2. 构造一个弱监督排序损失(weakly supervised ranking loss)来指导模型的参数更新;3. 效果很好。在两个具有挑战性的数据集上超过了非学习性的和现成的CNN描述子,等等。总的来说,就是把传统的VLAD算法融合到了CNN模型结构里,然后针对特定的谷歌街景数据集(Google Street View Time Machine)用了弱监督排序损失来训练。

新概念:1.架构参数端到端的学习:从原始数据到输出不经过人工的干预;

2.反向传播主要是传播误差方便对参数进行更新;

3.weakly supervised ranking loss弱监督排序损失;

4.弱监督:分为三种类型:不完全监督、不确切监督、不准确监督;

5.对图像比较相似:将图像训练成一个向量,与数据集比对,向量之间的相似性由欧氏距离表示;

6. aggregation:聚合

7.conv5(第五层网络)描述符号以及L2归一层

作者主页:https://www.relja.info/

效果:达到了较好的mAP,图像检索:image retrieval,本文的训练网络:VGG-16 NetVLAD + whitening

对比的网络:RootSIFT + VLAD + whitening 召回率:ImageNet。 Places205。召回率recall@1 recall@10 Recall@K召回率是指前排在前K的结果中检索出的相关结果数和库中所有的相关结果数的比率。数据集Pitts250k 和Tokyo 24/7。 Alex-Net 与 VGG-16

你可能感兴趣的:(深度学习,计算机视觉,神经网络)