欢迎私信交流
各个模型的详细解读请阅读本专栏的其它文章,内容详实,但突出重点,可以帮助读者对于具体的模型、尤其是模型的表征问题有非常完备的理解。
当然,专栏中的一些内容来源于笔者个人的思考与总结,可能存在错误,欢迎纠正与讨论。
BLIP系列:
BLIP 1.0、BLIP 2.0
从表征视角看VLLM(1)——BLIP系列模型-CSDN博客
LLAVA系列:
LLAVA 1.0、LLAVA 1.5、LLAVA 1.6
从表征视角看VLLM(2)——LLAVA系列模型-CSDN博客
Qwen-VL系列:
Qwen-VL 1.0、Qwen-VL 2.0
从表征视角看VLLM(3)——Qwen-VL系列模型-CSDN博客
Inter-VL系列:
Inter-VL 1.0、Inter-VL 1.5、Inter-VL 2.5
从表征视角看VLLM(4)——Inter-VL系列模型-CSDN博客
其它系列:
敬请期待(如deepseek-VL)
答:VLLM的表征包含视觉表征、语言表征与表征的对齐三个方面。
视觉表征,是指将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说,它包含以下2点:
从视觉表征的技术发展来说,有两个主要的阶段:传统的基于卷积神经网络的阶段和当前的基于Vision Transformer(ViT)的阶段。两种模型都有各自的视觉表征方式、训练以及多模态对齐过程。
语言表征,是指将自然语言信息(如文本、语音)转化为机器可理解的向量序列过程。其核心是通过深度学习模型捕捉语言的语义、语法和语用特征,具体包含2点:
词嵌入与序列化:将文本中的词或子词(Token)通过嵌入层(Embedding Layer)转换为相应的词向量。这些词向量不仅包含词汇本身的语义信息,还通过位置编码引入顺序信息,使模型能够理解句子的语法结构。
层次化语义提取:底层捕捉词汇语义(通过上述的Embedding层),中层建模句法结构(如Transformer编码器的多头注意力),高层构建篇章级语义表征(如CLS token聚合)
视觉与自然语言的对齐(Visual Language Alignment,VLA),在多模态学习中,指的是将视觉信息(例如图像)和语言信息(例如文本)进行有效结合的过程。这种对齐的目标是希望让模型能够理解和生成与图像内容相关的文本描述,或者根据文本描述检索和识别图像中的内容。
更具体的来说,就是希望将视觉表征和自然语言表征建模到同一个表征空间,使得它们相互理解并融合,实现两者的互通。这个过程也称模态对齐,通过模型训练完成。模态对齐是处理多模态问题的基础,也是目前流行的多模态大模型基础。
答:
从BLIP2开始算,BLIP2(23年1月)使用了Q-former;
LLAVA1.0(23年4月)使用的是一层的FC(前馈神经网络),LLAVA 1.5 (23年8月)和 LLAVA 1.6 改用了2层的MLP(多层感知机);
Qwen-VL(23年8月)采用了轻量级跨模态适配器(Cross-Modal Adapter),后续的Qwen-VL 2(24年9月)则省略了adapter,采用了统一的多模态嵌入,依靠数据驱动的方式学习对齐关系。
Inter-VL(23年12月)采用了大尺寸的VIT(6B),并在视觉编码器与LLM之间加入了一个8B的中间件(QLLAMA),作为视觉与语言对齐的“粘合剂”。而Inter-VL 1.5(24年4月)和后续版本则回归了VIT+MLP+LLM的经典结构,只是依然使用一个大尺寸 (6B) 的预训练视觉编码器。
Q-Former 优势:动态特征选择、强交互能力,适合复杂任务(如细粒度定位)。
MLP 优势:结构简单、训练高效,适合通用图文对齐场景。
一篇很专业的讨论,答者来自复旦大学-浦江实验室,参与了INTER-VL系列的研究:
(82 封私信 / 82 条消息) 多模态大语言模型(MLLM)为什么最近的工作中用BLIP2中Q-Former结构的变少了? - 知乎https://www.zhihu.com/question/626796690
Qwen2-VL的统一嵌入方式与Intern-VL的大尺寸VIT,都是比较“极致”的方式。
前者直接省去adapter模块,完全使用数据驱动的方式,利用LLM本身的能力去实现隐式的对齐。这种方法的优点是结构的极度简化,任务与模态的完全统一。缺点是如果要提升某一特定任务的能力,就需要对LLM进行微调,这就要较大的数据量和计算成本。
后者则是完全舍弃的模块“轻量化”的要求,大幅提高VIT的参数量,这种模型驱动的方式实现了具强大的 表征能力 、 泛化能力 与 抗噪声性。
但是,这两种看似南辕北辙的方法,却在一些特质上殊途同归:强大的泛化能力与多模态统一的能力,以及较大的数据与计算资源需求。
优点:
参数两:单层 cross-attention 的设计非常轻量化,参数量小,计算资源需求低,适合嵌入到现有 LLM 中。
动态结构:由于 cross-attention 的计算复杂度与输入长度相关,理论上可以通过输入的复杂度动态调整计算量。
抗噪声性:cross-attention 能够在一定程度上聚焦于输入的关键特征,具有一定的抗噪声能力。
缺点:
泛化能力:单层 cross-attention 的表征能力有限,可能需要与 LLM 联合微调才能适配新任务。
优点:
多模态统一:通过直接嵌入 LLM 的方式,统一编码能够实现图像、文本等模态的无缝融合,避免了额外的中间件或适配器。
泛化能力:统一编码的设计可以直接利用 LLM 的强大泛化能力,无需额外的下游微调。
参数极简:由于直接嵌入 LLM,避免了额外的参数开销,整体架构更加简洁。
缺点:
动态结构:统一编码的计算复杂度固定,难以根据输入复杂度动态调整。
抗噪声性:对低质量输入的鲁棒性依赖于 LLM 本身的能力,可能不足以处理极端噪声。
可定制性:由于没有适配器,因此无法通过训练适配器的方法来增强特定任务的能力,依赖LLM本身的能力,不适用于低成本+个性化的工作。
优点:
参数极简:MLP 结构非常轻量化,参数量小,计算资源需求低。
动态结构:MLP 的计算复杂度较低,适合在轻量化场景中使用,并调整参数。
缺点:
可定制性:MLP 的表征能力有限,通常需要与 LLM 联合微调,才能有效提升特定任务的性能。
可解释性:MLP没有attention机制,特征选择过程较为黑箱化,可解释性较弱。
优点:
多模态统一:Q-former 通过 query 的方式实现了图像和文本的高效交互,支持多模态任务。
泛化能力:Q-former 的设计使其能够在一定程度上独立于 LLM 工作,适配新任务的能力较强。
可定制性:Q-former也可以被单独训练以适应个性化的任务。
可解释性:Q-former 的 query 机制可以提供特征选择的可视化证据。
抗噪声性:Q-former 能够通过 query 聚焦于输入的关键特征,具有较强的抗噪声能力。
缺点:
参数量:Q-former 的参数量相对较大,可能增加一定的计算资源需求。而且会比较难训。
优点:
多模态统一:大尺寸 ViT 和 QLLaMA 的结合能够实现高质量的多模态表征,支持图像、文本等模态的无缝融合。
泛化能力:ViT 和 QLLaMA 的强大表征能力使其能够适配多种任务,甚至无需下游微调。
抗噪声性:大尺寸 ViT 对低质量输入具有较强的鲁棒性,能够提取高质量的特征。
缺点:
参数量:大尺寸 ViT 和 QLLaMA 的参数量较大,计算资源需求高,难以满足轻量化要求。
动态结构:参数量大而固定,难以根据输入复杂度动态调整。
(来自GPT-4O的评价,也代表部分个人意见)
方法 | 参数极简 | 动态结构 | 泛化能力 | 多模态统一 | 可解释性 | 抗噪声性 |
---|---|---|---|---|---|---|
Qwen-VL(cross-attention) | ★★★★☆ | ★★★★☆ | ★★☆☆☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ |
Qwen2-VL(统一嵌入) | ★★★★★ | ★★☆☆☆ | ★★★★☆ | ★★★★★ | ★★☆☆☆ | ★★★☆☆ |
LLAVA(MLP) | ★★★★★ | ★★★★☆ | ★★☆☆☆ | ★★☆☆☆ | ★★☆☆☆ | ★★★☆☆ |
BLIP2 (Q-former) | ★★★☆☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
INTER-VL(6B VIT) | ★☆☆☆☆ | ★★☆☆☆ | ★★★★★ | ★★★★★ | ★★★☆☆ | ★★★★★ |
最终的选择,还是需要根据具体应用场景的需求(如计算资源限制、任务复杂度、多模态支持等)进行权衡,不过目前来看,使用MLP是个保险的选择。
一个“完美”的 Adapter 应满足以下条件:
答:有很多,这里列举一些我个人有在关注的。
比如DPO,COT等技术,在纯NLP领域已经有很多的技术积累,可以将这些技术迁移到到多模态的任务中,并做领域的适配(技术迁移和领域适配的方法就是创新点了)。
痛点:一个理想的人机交互系统应该包含听觉、视觉甚至是触觉的输入,同时具有语言、声音、表情、动作的输出。考虑到实时性与交互的满意度,现在的多模态模型还有很长的路要走。
创新方向:
多模态对话系统:支持通过语音、手势、文本等多模态输入与模型交互。这种模态的增加并不是堆砌,而是使用更统一的表征方法与生成方式,实现低延时、端到端的交互。
主动查询机制:模型主动向用户提问以澄清模糊输入(如“您指的是图中的左侧建筑吗?”)。
个性化适应:模型向:多模态的role-play;用户向:根据用户的多模态的个人特征、档案以及历史交互数据动态调整模型行为。
痛点:针对生成式任务,缺乏统一的细粒度的多模态评估标准。艺术一点的说法是:
"当前多模态人工智能发展的主要矛盾,是生成式人工智能任务日益增长的复杂化、场景化、精细化需求,与传统评测体系(如使用BLEU、ROUGE等指标)的单一性与局限性之间的矛盾。"
创新方向:
通用模型的多维评估框架:从对齐精度、推理深度、生成质量、鲁棒性等维度综合评估VLLM模型。缺点是研究门槛高,依赖团队资源与影响力。敬请期待