【CLIP】Learning Transferable Visual Models From Natural Language Supervision

        这篇论文是利用自然语言作为监督信号学习可迁移的视觉模型,学习到泛化性能好的特征,可以做zero-shot迁移,在各种数据集上或者各种任务直接推理能获得较好的效果。

        在pre-train部分,通过对比学习,判断图像和文本是不是一个配对,而不是让图像预测文本,因为对比学习训练很高效。图像和文本分别通过各自的encoder得到图像特征和文本特征,图像的encoder可以采用resnet或者VIT,文本的encoder可以采用transformer,计算n个图像特征和n个文本特征之间的相似度,利用交叉熵损失函数分别计算loss-image和text-loss,将两个loss加起来再求平均得到最后的loss。

【CLIP】Learning Transferable Visual Models From Natural Language Supervision_第1张图片

        在预训练好后,可以直接做zero-shot迁移,将任意的图像输入至image encoder,得到图像的特征,文本的输入为感兴趣的标签,标签通过prompt engineering变成一个句子,再通过text encoder得到文本特征,图像特征和文本特征算相似度,相似度通过softmax得到概率分布,概率最大的标签是图像可能对应的文本。 

【CLIP】Learning Transferable Visual Models From Natural Language Supervision_第2张图片

你可能感兴趣的:(个人学习,深度学习,计算机视觉,机器学习)