极智Paper | 性能数据炸裂的多模态模型BEiT-3:Image as a Forign Language

欢迎关注我的公众号 [极智视界],获取我的更多笔记分享

  大家好,我是极智视界,本文解读一下 性能数据炸裂的多模态模型 BEiT-3:Image as a Forign Language

  介绍一个在 视觉 和 视觉-语言任务上具有 state-of-the-art 迁移能力的多模态模型 BEiT-3,BEiT-3 主要从三个方面来促进大融合:(1) backbone architecture;(2) pretraining task;(3) model scaling up。在 BEiT-3 中有意思的是把图片 images 都用语言的形式 “Imglish” 来表示,配合文本 texts “English” 和 图片-文本对 “parallel sentences” 。BEiT-3 在多种任务如视觉任务(目标检测、图像分割、图像分类问题)、多模态任务(图像理解、图像问答等任务) 中都有优秀的表现,迫不及待上图了:
极智Paper | 性能数据炸裂的多模态模型BEiT-3:Image as a Forign Language_第1张图片
极智Paper | 性能数据炸裂的多模态模型BEiT-3:Image as a Forign Language_第2张图片

文章目录

    • 1. 简介
    • 2. 方法

你可能感兴趣的:(极智论文,计算机视觉,人工智能,深度学习,transformer,BEiT-3)