随笔-大模型

KL 损失函数

大模型的预训练方法主要有三种

1 multimodal matching : MM predict whether a pair of modalities is matched or not

2 multimodal contrastive learning : aims to draw pairwise unimodal representations close to each other

3 mask language modeling :utilizes the feature of both modalities to predict masked words

promot:

就像人机交互一样,使用命令行或者声音等形式

prompt 就像我们和大模型交互的方式,

autoprompt

visual prompt

用大模型去 fine-tune 你自己的数据集,如果全部放开参数,有可能会出现过拟合、灾难性遗忘(泛化性差)

一种基于视觉prompt模型的烟火识别方法----

–一种基于多模态融合的烟火识别方法—

-----提示学习------------------

box,分割这都是标签都是prompt

对比学习:万一从一张图象中抽取的两个view如果毫无关系,拉近他们的特征就不合理

解决大数据和小样本之间的冲突

1 NLP已经不用考虑预训练和下游任务的域间差异性,因为语法结构和常见单词完全一样

2 CV 必须假设上下游数据分布显著不同

3 因此用小数据微调大模型,在NLP领域不是大问题(主流只微调prompt),但在CV领域是个大问题,

3 所以设计友好的Prompt是个好方向 (比如人物,时间,地点,事件。。)

基于语言驱动的方法(Prompt):语言应该起到辅助视觉的作用

这包括CLIP带动的视觉prompt类方法,以及存在更长时间的visual gro
unding问题等,其基本特点是利用语言来指代图像中的语义信息并加以识别。语言的引
入,确实增强了识别的灵活性,并带来了天然的开放域性质。然而语言本身的指代能力有限
(想象一下,在一个具有上百人的场景中指代某个特定个体),无法满足无限细粒度视觉识
别的需要。归根结底,在视觉识别领域,语言应当起到辅助视觉的作用,而已有的视觉pro
mpt方法多少有些喧宾夺主的感觉

prompt learning(提示学习):预训练学习知识和模式的能力已经得到了充分的验证,提示学习主要思想就是在不显著改变预训练模型
结构的前提下,通过给输入提供“提示信息”,将下游任务转为完形填空或者文本生成任务。充分挖掘预训练
模型学到的知识,具体来说:在预训练-微调 范式中,预训练仅用于文本编码,实现下游任务需要格外训练一个分类器

分类,监测,分割任务,

AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts

预训练语言模型近些年来取得了巨大的进步。通过微调的方式,在很多任务上达到了很高的水准。但是很难去判断,语言模型学习到的知识是在预训练阶段学习到的还是微调阶段学习到的。

VPT: 篇文章提出了一个简单、有效的方法调整预训练好的Transformer模型用于下游任务,即Visual-Prompt Tuning (VPT)。
对于大模型适应下游任务时,通常的策略是端到端的全面微调、微调参数的子集,分类器头部或者偏差项、

BLIP-2 第一阶段事从冻结的图像编码器自举视觉-语言表示学习 第二阶段:视觉到语言的生成性学习,从一个冻结的语言模型自举视觉到语言的生成性学习

大模型具备的能力

1 比如图片中发生了什么? CV模型的感知能力

2 问题问的什么:电影的结尾? 感知-NLP模型的能力

3 图片和电影有什么关系? (对齐融合-多模态能力)

4 电影的结尾是什么? (推理能力-LLM模型)


transformer 架构融合特征最适合不过

从提示学习的观点来看,目前模态的数据量不足以保证大语言模型训练的更好,反而可能会让其丧失泛化性,
如果不能让模型适应任务,那就让任务适应模型

图中有什么(ViT)+ 问的是什么(Q-Former,LLM)+ 找答案 (LLM)。

BLIP-2 无论你视觉encoder用的什么模型,最终都是32768 ,这样可以和文本的Embedding(N768)拼接起来送入LLM;

Cross Attention 特点

1 可以处理各种输入和输出,将非常长的输入序列,通过权值矩阵Wk WV WQ合并到低纬度的嵌入序列中

你可能感兴趣的:(11,人工智能)