【计算机视觉】MoCo 讲解

有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

MoCo

模型概述

MoCo 是何恺明提出的一种通过对比学习的方式无监督地对图像编码器进行预训练方法。MoCo 包括三个结构,query 编码器key 编码器动态字典。训练完成的 query 编码器会与下游任务拼接;key 编码器最大的特点是以大动量的方式更新模型参数但是不涉及梯度计算,作用是对(数据增强后的)输入图像进行编码,将图像映射到特征空间;动态字典具有规模大强一致性的特点,是一个大小固定的队列结构,这里的“字典”不是数据结构,而是与自然语言处理中的词汇表/字典的概念类似,但“队列”是数据结构,字典中保存(连续的)特征空间中的部分(离散的)特征,这些特征来自 key 编码器,动态正是采用队列结构的意义所在,字典中过时的元素会被移出,来自 key 编码器的新元素(特征)被加入到字典中。

MoCo 是计算机视觉领域对比学习里程碑式的工作。其实验结果说明了,无监督学习在主流的 CV 任务(分类、检测和分割)能够不逊色于监督学习,很大程度上消除了 CV 领域有监督学习和无监督学习效果上的差距。

对比学习简述

对比学习ÿ

你可能感兴趣的:(【NLP,&,CV】,计算机视觉,机器学习,人工智能,深度学习)