何恺明团队新作FLIP:通过Masking扩展语言-图像预训练

一句话总结

本文提出了Fast Language-Image Pre-training (FLIP),这是一种简单且更有效的训练CLIP的方法。

点击进入—>Transformer微信技术交流群
在这里插入图片描述

FLIP

在这里插入图片描述

Scaling Language-Image Pre-training via Masking

单位:Meta AI, FAIR(何恺明等人)

论文:https://arxiv.org/abs/2212.00794

我们的方法在训练过程中随机mask并删除了大部分图像patches。Masking允许我们在相同的wall-clock time内从更多的图像-文本对中学习,并在内存占用相似的情况下每次迭代对比更多的样本。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验结果

它导致准确性和训练时间之间的有利权衡。在我们对4亿图像-文本对的实验中,FLIP提高了 no-masking基线的准确性和速度。在大量downstream任务上,FLIP的性能明显优于在相同数据上训练的CLIP工作。
在这里插入图片描述

在加速的推动下,我们探索了增加模型大小、数据大小或训练长度的扩展行为,并报告了令人鼓舞的结果和比较。我们希望我们的工作将促进未来关于扩展视觉-语言学习的研究。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

CVer-Transformer交流群

点击进入—>Transformer微信技术交流群

建了Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer222。加的时候备注一下:Transformer+学校/公司+昵称+CSDN,即可。然后就可以拉你进群了。

你可能感兴趣的:(计算机视觉论文速递,CLIP,深度学习,人工智能,机器学习,计算机视觉)