X-VLM

推荐频道

X-VLM

X-VLM: Multi-Grained Vision Language Pre-Training

为了解决上述问题，作者提出了端到端的多模态模型X-VLM来进行“multi-grainedvisionlanguagepre-training”(alignthet

连理o·2023-11-02 22:03

跨模态检索论文阅读：Multi-Grained Vision Language Pre-Training: Aligning Texts with VisualConcepts(X-VLM)

提出通过定位图像中的视觉概念来优化模型（X-VLM），并同时将文本与视觉概念对齐，其中的对齐是多粒度的。通过经验验证，我们的方法在微调中有效

若年封尘·2023-06-15 03:42

2022: Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

为此，我们提出一种新的方法--X-VLM来执行多粒度视觉语言预训练。学习多粒度对齐的关键是在给定相关文本的图像中定位视觉概念，同时将文本与视觉概念对齐，其中对齐是多粒度的。

weixin_42653320·2023-01-31 23:43

X-VLM：多粒度视觉语言预训练方法

Multi-GrainedVisionLanguagePre-Training:AligningTextswithVisualConcepts.”ArXivabs/2111.08276(2021).源码：https://github.com/zengyan-97/x-vlm

Civisky·2022-12-13 17:13

ICML 2022 | 字节跳动 AI Lab 提出多模态模型：X-VLM，学习视觉和语言的多粒度对齐...

为此，字节跳动AILabResearch团队提出了X-VLM，首次提出学习多粒度的视觉和语言对齐。实验证明，这种预训练方法十分高效，模型规模无需很大，预训练数据无需很多，仅216M参数量的

QbitAl·2022-06-21 13:06

上一页 1 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他