多模态模型小抄(1)

前言

现在模态间的联系越来越多,模态间的信息互补也符合人类对周边事务的认知习惯。故写下此文记录一些有意思的多模态模型。

CV领域经典backbone模型小抄(1)

CV目标检测模型小抄(1)

CV语义分割模型小抄(1)
CV实例分割模型小抄(1)

多模态模型小抄(1)

paperweekly的一篇推送 ​300+篇文献!一文详解基于Transformer的多模态学习最新进展

扩散模型文本生成图像最近很火啊, 扩散模型与其在文本生成图像领域的应用


论文

X-CLip

ECCV 2022
论文: Expanding Language-Image Pretrained Models for General Video Recognition
代码: https://github.com/microsoft/VideoX/tree/master/X-CLIP
博文: ECCV 2022 | 视频理解新框架X-CLIP:仅用微调的成本,达到预训练的全能



ReferFormer

多模态模型小抄(1)_第1张图片

Language as Queries for Referring Video Object Segmentation
arxiv: https://arxiv.org/abs/2201.00487
代码: https://github.com/wjn922/ReferFormer
CVPR 2022

多模态模型小抄(1)_第2张图片

ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。
博文: https://mp.weixin.qq.com/s/MkQT8QWSYoYVhJ1RSF6oPQ



ViLT

ICML 2021 (long talk)
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

代码: https://github.com/dandelin/vilt

它的论文确实值得一读,背景部分写的像综述,概括了最近的 视觉-文本预训练模型,

多模态模型小抄(1)_第3张图片

受ViT启发,使用了Linear Projection, 同时还用了两个小技巧, whole word masking和image augmentation(多模态文本图像对 之前很少人对图像去数据增强)。其中图像增强用了RandAugment, 但是不使用color inversion和cutout。

多模态模型小抄(1)_第4张图片



CLIP

Learning Transferable Visual Models From Natural Language Supervision
论文: https://arxiv.org/abs/2103.00020
github: https://github.com/openai/CLIP

适合抽特征,检索类任务。不适合VQA,Vision Reasoning类任务。

多模态模型小抄(1)_第5张图片

一个实战项目: 基于CLIP/ViT模型搭建相似图像检索系统_bilibili

一篇挺好的知乎文章: CLIP:多模态领域革命者

你可能感兴趣的:(人工智能,自然语言处理,人工智能,计算机视觉,语音,多模态)