Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision

Abstract&Introduction&Related Work

  • 研究任务
    • 多模态对比学习+prompt
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    • 使用文本和图像对配对来做无监督对比学习,并且使用prompt增强效果
  • 实验结论
    • sota
    • 有强大的zero-shot能力,可以匹敌ResNet50,甚至在一些任务上效果更好

CLIP

  • 将文本和图像经过Encoder抽取特征后,在一个batch里,对角线上的文本-图像对作为正样例,其余作为负样例进行对比学习
  • 在训练完整个模型后,使用prompt来增强模型的zero-shot能力,为每一个可能的类设计模板,并将分数最高的类作为最后的预测类别
    Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第1张图片

Natural Language Supervision

使用自然语言作为监督信号,把规模做大,并且不需要标注

Creating a Sufficiently Large Dataset

  • 自己弄了一个4亿 文本-图像对的数据集
  • 为了尽可能广泛地涵盖一组视觉概念,我们搜索(图像、文本)对,作为构建过程的一部分,其文本包括一组500000个查询中的一个,我们通过每个查询包含多达20000个(图像、文字)对来近似类平衡结果。结果数据集的总字数与用于训练GPT-2的WebText数据集相似。我们将此数据集称为WebImageText的WIT

Selecting an Efficient Pre-Training Method

  • 训练效率对多模态训练成功是至关重要的
  • 用图片来逐字逐句预测文本太难,而将其匹配很简单
  • 把预测性的目标函数换成对比型的,效率提高了四倍

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第2张图片
CLIP的训练方法,非常简单

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第3张图片

Choosing and Scaling a Model

  • 文本和图片编码器都不需要预训练
  • 使用了linear投射层,因为发现非线性没什么用(但是在单模态对比学习里面很游泳)
  • 数据增强只使用了crop
  • 温度设置成了可以学习的一个标量,直接优化掉
  • batch size 32768
  • 混合精度

Experiments

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第4张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第5张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第6张图片

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第7张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第8张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第9张图片

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第10张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第11张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第12张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第13张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第14张图片

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第15张图片

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第16张图片

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第17张图片

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第18张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第19张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第20张图片
Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision_第21张图片

Conclusions

我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域

我们发现,采用该范式会使计算机视觉领域出现类似行为,并讨论了这一研究领域的社会影响。

为了优化训练目标,CLIP模型在预训练期间学习执行各种任务。然后,可以通过自然语言提示利用该任务学习,以实现对许多现有数据集的zero-shot。在足够的规模下,该方法的性能可以与任务特定的监督模型匹敌,尽管仍有很大的改进空间

Remark

算是小神作,实验巨大巨全,启发了后面多模态很多很多的工作,初步展现大模型在多模特领域的超强威力

你可能感兴趣的:(Multimodal,读paper,人工智能,深度学习,计算机视觉,机器学习,自然语言处理)