论文阅读——MoCo:Momentum Contrast for Unsupervised Visual Representation Learning

不放翻译了,大家喜欢的可以搜索题目去谷歌学术下载~

样本数量对于对比学习很重要,提出一种动量对比的方法来提高每个mini-batch中负样本的数量。左边的 是查询的样本,右侧的 是一个字典,存储的是一组数据样本,分别通过不同的编码器网络提取特征,通过最小化特征之间的对比损失函数进行编码网络的更新。

论文阅读——MoCo:Momentum Contrast for Unsupervised Visual Representation Learning_第1张图片

  • x_q代表某一图片p_q的图像增强操作(包括旋转、平移、裁剪等)后的一个矩阵;
  • x_k代表多张图片p_k(p_k中包含p_q)的图像增强操作之后的多个矩阵;
  • Encoder、momentum encoder代表两个编码网络,这两个网络的结构相同,参数不同
  • q代表x_q经过encoder网络编码之后的一个向量
  • k代表x_k经过momentum encoder网络编码之后的多个向量

文章的目标函数采用的是InfoNCE:

在这里插入图片描述

特点是动态字典,这里的动态体现在了字典的大小是一个超参数,每一次将batchsize大小的样本送入字典,当队列满的时候,会将最旧的一批淘汰。此外还可以保证一致性,对于字典的反向传播来说,网络的参数受到每个样本的影响,而字典中包含了大量的样本,那么每一次反向传播的过程对于字典的编码器网络的变化太大,从而导致提取特征的一致性过低,所以采用的是动量更新的方法。(待进一步理解)

参考链接:
https://zhuanlan.zhihu.com/p/132550481
https://zhuanlan.zhihu.com/p/275750619?utm_source=wechat_session

你可能感兴趣的:(自监督学习,机器学习)