自监督学习目标检测论文self-EMD笔记

论文名称:Self-EMD: Self-Supervised Object Detection without ImageNet

论文地址:https://arxiv.org/abs/2011.13677

核心思想

提出了一个应用于目标检测的自监督表示学习方法——self-EMD,可以直接采用COCO数据集(non-iconic)进行训练,不像传统的方法在ImageNet数据集(iconic-object)上进行训练。利用卷积特征图作为image embedding(一般的自监督学习的方法采用经过感知机后的一位向量作为embedding,损失了空间结构,但是目标检测住主要依赖于空间结构),并使用**EMD(Earth Mover’s Distance)**来计算一对embedding之间的相似性,最终使用Faster RCNN(ResNet50_FPN)的算法在COCO数据集上39.8%的mAP,与现有的自监督学习的算法(在ImageNet上预训练之后)精度基本上一致,如果采用更多的无标注数据,那么这个算法在COCO上的mAP可以达到40.4%.

算法介绍

现在的自监督学习通过在ImageNet数据集上实现实例级的图像分类来进行无监督的预训练,通过最大化不同图像之间的距离(相似度),最小化同一张图像的不同view之间的相似度来学习一个良好的表示,这种方法针对ImageNet这种分类数据集(一张图像上一个分类物体)来说是适用的。但是针对COCO这种多目标数据集来说就不太适用,因为如果对一张图像是实现裁剪可能得到的是不同的物体,因此在目标检测中这种对比表示学习的方法不适用。
而且传统的自监督表示学习的方法常常使用Global Pooling的方法来得到Image Embedding,这就损失了图像的局部与空间信息,在目标检测中图像的不同位置对应了不同的物体,空间结构比较重要。
self-EMD提出去掉全局池化层,直接使用卷积特征图作为Image Embedding,这样就能保存局部与空间信息,但是这样该如何度量两个feature map之间的相似性呢?而且同一个image的不同crop图像可能包含着不同的图像,因此,度量标准就需要在不同的局部patch中能够挑选出最优的匹配并且最小化不相关区域之间的噪声问题,本文提出使**用EMD(Earth Movier‘s Distance)**来作为度量标准计算所有局部patches的相似性,这种方法命名为Self-EMD。EMD适用于度量结构性表示之间相似性。给定所有元素对之间的相似性,EMD可以在拥有最小损失的结构之间获得最优的匹配。文章采用cosine相似度来度量两个feature map之间的不同位置之间的相似性并且为EMD约束设置一个合适的权重。

Self-EMD采用BYOL作为其baseline。

自监督学习目标检测论文self-EMD笔记_第1张图片
Self-EMD与BYOL不同在于去掉了最后的全局池化层,并采用卷积层替代了MLP head。采用最后的卷积特征图作为image embedding。

Earth Mover’s Distance用来度量两组加权的obejct或者加权的分布之间的距离。离散版本的EMD已经在最优传输问题(OTP)中已经被广泛的研究。特别地,如果需要运输一组资源在这里插入图片描述到一些目的地在这里插入图片描述,从si到dj的运输损失记为cij, 策略使用在这里插入图片描述来进行标记。最终找寻最优的策略:
自监督学习目标检测论文self-EMD笔记_第2张图片
线性最优问题,可以在多项式中时间进行求解,但是针对图像特征图,时间复杂度存在图像的分辨率的平方还有batch size,时间复杂度依然很高。使用快速的迭代法(Sinkhorn-Knopp算法)来求解:
自监督学习目标检测论文self-EMD笔记_第3张图片
E为正则化项,在这里插入图片描述
利用拉格朗日变换为无约束的最优问题:
自监督学习目标检测论文self-EMD笔记_第4张图片
令导数为0,得到:
自监督学习目标检测论文self-EMD笔记_第5张图片
当(7)(8)同时满足时,一个uv的可能解可以由一以下的迭代产生:
在这里插入图片描述
最终的近似最优解为:
在这里插入图片描述

EMD距离应用于feature map上时,两个特征图分别作为资源与目的地,那么损失可以定义为:
在这里插入图片描述

在计算得到最优的转换之后,可以得到两个图像特征图表示之间的相似度:
在这里插入图片描述

实验结果

自监督学习目标检测论文self-EMD笔记_第6张图片

更多资料

  • 微信公众号: 小哲AI

    wechat_QRcode

  • GitHub地址: https://github.com/lxztju/leetcode-algorithm

  • csdn博客: https://blog.csdn.net/lxztju

  • 知乎专栏: https://www.zhihu.com/column/c_1101089619118026752

  • AI研习社专栏:https://www.yanxishe.com/column/109

你可能感兴趣的:(小哲AI)