呆呆的猫

【多模态】26、视觉-文本多模态任务超详细介绍「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」

文章目录

准备知识
一、CLIP：不同模态简单对比的方法更适合于图文检索
- 1.1 CLIP 在分割上的改进工作
- - 1.1.1 LSeg
  - 1.1.2 Group ViT
- 1.2 CLIP 在目标检测上的改进工作
- - 1.2.1 ViLD
  - 1.2.2 GLIPv1
  - 1.2.3 GLIPv2
二、ViLT/ALBEF ：多模态融合在 VQA/VR 任务中更重要
三、BLIP：提出了一个很好的为图像生成 caption 的方法
四、CoCa：视觉-文本任务在模型上的统一
五、BeiTv3：模型、目标函数、模型和数据集 scale 也要统一

准备知识

OSCAR 和 UNITER ：在没有 Transformer 之前，做多模态的就是 OSCAR 和 UNITER 等工作，其中用的是 object detection 的模型来做视觉特征的抽取，这个代价很大
ViLT：transformer （ViT）出现之后，ViLT 的作者就想到使用 linear embedding 来代替视觉特征的抽取，大大的简化的视觉特征的抽取过程和代价
CLIP：能高效的做图文对比学习来实现高效的图文检索
ALBEF：根据 ViLT 的简单结构、CLIP 的对比学习的高效和强悍、UNITER 的多模态融合的有效，结合了三家长处，得到了 fusion-encoder 的结构，能够实现更高效的更强悍的图文理解
CoCa：在 SimVLM 和 ALBEF 的基础上，提出了对不同任务框架的统一
VLMO：基于 ViLT 和 ALBEF，提出了共享参数的统一任务框架
BLIP：基于 ALBEF 和 VLMO，提出了一个能实现文本生成的框架，也相当于一个普适的工具，能生成很好的文本描述
BEIT：在 ViT 的基础上，顺着 BERT 的 mask 的思想，提出了 BEIT，能在视觉上做 mask model
VL-BEIT：结合了 BERT 在文本上的 mask 方法和 BEIT 在视觉上的 mask 方法，推出了多模态的 mask 方法
BEIT-V3：结合了 VMLO、BEIT、VL-BEIT，推出了 BEIT-V3，超过了单模态和多模态的大量方法
MAE：在 ViT 的基础上，mask 掉 pixel，很有效的做了 mask model，MAE mask 掉了大量的视觉 patch，只把没有 mask 的 patch 送入了 vision transformer 学习，计算量就变小了
FLIP：结合了 CLIP 和 MAE 的特性，模型就是 CLIP，在视觉那端只用了没有 mask 的 token，降低了计算量，所以 Fast

还有很多研究者聚焦于模型的统一，因为 VLMO 和 BEIT 这些虽然号称自己是大一统的模型，其实是多种模块的拼接，用的时候需要哪个用哪个，而不是真正意义上的一个模型

所以很多工作聚焦于 Language interface 和 generalist model，依然想建立真正意义上的大一统模型

Language interface：就是使用 prompt 来控制模型，在做不同任务的时候使用 prompt 来告诉模型现在要做什么任务，然后控制模型的输出，如 metaLM、PaLi 等
generalist model：通用模型，也是想在预训练和下游任务的时候训练一个模型，不需要调整结构和添加 head，如 unified-IO、unipercivier 等

一、CLIP：不同模态简单对比的方法更适合于图文检索

论文：Learning Transferable Visual Models From Natural Language Supervision

代码：https://github.com/OpenAI/CLIP

官网：https://openai.com/research/clip

出处：OpenAI

时间：2021.02

贡献：

基于图文匹配，不受限于分类类别，有很强的扩展性！！！这是 CLIP 最炸裂的地方，彻底摆脱了预定义标签列表了
不仅仅能识别物体的类别，而且通过引入文本语义和视觉语义进行了联合，所以语义性非常强，迁移效果也很好，因为和语言信息的结合，所以 CLIP 学习到的视觉特征和用语言描述的物体产生了强烈的联系，无论是动漫、素描、真实的香蕉，能在域变化很剧烈的情况下，仍然很好的识别出香蕉
提出了一个基于图文匹配的多模态模型，通过对图像和文本的模型联合训练，最大化两者编码特征的 cosine 相似度，来实现图和文的匹配
基于图文匹配的模型比直接学习文本内容的模型效率高很多

CLIP 的核心就是利用自然语言的监督信号来指导模型训练

作者强调这种思路并不是一种很新的思路，因为之前就有方法做了相关研究，但描述的很凌乱，同样的思想却被分别称为无监督、自监督、弱监督、有监督的方法，看的很混乱，而且规模也没做大，所以本文就是总结了这些方法且用很多的实验证明了效果

预训练流程：

利用自然语言的监督信号来学习迁移到视觉模型
对文本使用文本编码器，提取文本特征，对图像使用图像编码器，提取图像特征
一个迭代中，假设有 N 个文本特征和对应的 N 个图像特征，CLIP 就是在这些特征上进行对比学习
对比学习只需要正样本和负样本的定义
这里的正样本就是配对的图文 pairs，也就是图 1(1) 中的对角线位置上的特征对儿，负样本就是其他位置上的特征对儿，这里有 N 个正样本，N^2-N 个负样本
这里是无监督的训练方式，所以需要大量的数据，所以使用了 4 亿图文对儿来预训练

推理：

既然 CLIP 是无监督的方式，那么其实是没有分类头的，所以 CLIP 提出了使用 NLP 那边的 prompt template 的方式
也就是把 ImageNet 的每个类别名称（如 car）变成一个句子（a photo of car），1000 个类就有 1000 个句子，通过预训练好的文本编码器，就能得到特征
为什么要把类别名称变成一个句子呢，因为在预训练的时候模型见到的都是句子，所以使用句子形式的文本就比较好
然后把图片特征和文本特征算相似性，和哪个文本最相似，就挑出来这个文本作为类别作为结果

1.1 CLIP 在分割上的改进工作

分割任务其实是对像素级别的分类，所以分类任务的技术很容易就能用到分割任务上来

1.1.1 LSeg

论文：Language-Driven segmantic segmentation

出处：ICLR2022

1、模型效果

2、模型架构

模型结构和 CLIP 看起来非常像：

单看下面的图像特征的处理过程，和有监督的图像分割结构完全一致，都是对图像进行特征提取，得到特征图，然后上采样得到输出特征图，输出和 gt 做 loss 就可以了
文本的处理也是先输入 label，假设有 N 个 label，经过 text encoder 就会得到 N 个文本特征，也就是 NxC 的特征，而且这里的文本编码器是使用的 CLIP 训练好的编码器，在训练的过程中是不参与训练的，是冻住的

这个方法就是将文本引入了分割任务，但终究使用的是有监督的训练方式，就是使用了 7 个分割数据集的 gt 来监督模型的训练，计算 CE loss

1.1.2 Group ViT

论文：GroupViT: Semantic Segmentation Emerges from Text Supervision

代码：https://github.com/NVlabs/GroupViT

出处：CVPR2022

因为 LSeg 虽然很类似于 CLIP 的结构，但目标函数不是对比学习，也并没有把文本当做监督信号来使用，还是依据于人工标注的 mask 来训练的，手工标注 mask 是很贵的，所以还需要研究如何真正使用文本来监督训练

GroupViT 是真正的利用的文本特征，使用图像-文本对来监督模型训练，不需要使用 mask，从而让模型来实现简单的分割任务

视觉上很早之前做无监督分割的时候，其实就是一种自下而上的方式，就是使用 group 的方法，就是假如有聚类的中心点，然后从中心点开始发散，把附近周围相似的点来扩展成 group，这个 group 就相当于一个 mask

本文作者重新审视了一下 group 的方法，提出了一个计算单元 grouping block，还有一些可学习的 tokens，希望模型在初始学习的时候就能慢慢的把相邻相近的像素点 group 起来，慢慢形成一个 mask。

可以看到在初始浅层上，学到的 group token 分割的效果还不是很好，经过学习的深层 group token 就做的挺好的了，所以 GroupViT 就是在原始的 group 框架中，加入了 group block 和可学习的 group token。

模型训练：

图像编码器是 transformer，一共有 12 层，输入有两部分：

图像 patching embedding：图像 patch 大小为 16x16，就有 14x14 个块儿，经过 linear projection 后得到 196x384 特征,196 =14x14, 384 是将每个 patch 编码成 384 的特征
可学习的 group token：64x384 大小，384 是为了维持维度不变，为了和前面的图像 384 维的特征进行拼接，64 是希望开始的时候有尽可能多的聚类中心，可以理解为 cls token，就是想用这个 token 代表整个图像的类别，之前 cls token 只有一个的原因是用整个 cls token 代表整个图像特征，这里的 64 表示 64 个聚类中心，或起始点，把看起来相似的或语义接近的点都归结到这 64 个聚类内，让模型学习这些 patch 哪些属于哪个 token。
在 6 层 transformer layer 后加入了 group block：作者认为在 6 层 transformer layer 后呢，已经教会了这个些 group token 学的差不多了，然后就把这 64 个 cluster 聚合一下，学到更高语义的一些信息，所以就利用 group block 把这些图像 patch embedding 分配到对应的 token 上，然后就只剩下了 64 个 token，得到 64x384 的特征，也会降低序列长度，降低模型计算复杂度，类似层级式的网络结构
完成了第一次 group 呢，作者还希望把 64 个聚类中心变得更小一些，因为常见数据中类别也不会太多，所以又加了一次 8 个 group token，8x384，也就是把 64 个 token 映射到 8 个 token上，作者在第九层 transformer layer 上加了这 8 个 token，后面会再经过 3 层 transformer layer 的学习，也就是图像分成了 8 大中心，每个中心对应了不同的特征。
得到了 8x384 的特征序列后，怎么得到最终的图像级别的特征来做对比学习特征呢，作者使用 avg pooling 得到了 1x384 的特征，然后最后做一次 MLP 得到 1x384 的特征，然后计算图像-文本对的对比学习的 loss

模型推理：

给定一个图片，经过 GroupViT 得到 8 个 group embedding
将输入的 prompt 文本通过文本编码器得到文本特征，计算 group embedding 和文本的相似度，就可以得到每个 group 和 text embedding 的关系就可以了
但有一个局限就是，输出只能是 8 个类别

可视化 group token 的作用：能够起到不同类别划分到不同 group 上的作用

stage 1 关注比较小的区域，第 5 个 group 对应的就是眼睛，第 36 个 group 对应的就是四肢
stage 2 关注比较大的区域，第 6 个 group 对应的就是草地，第 7 个 group 对应的是人脸

效果：

虽然超越了之前的无监督的方法，但和当前的有监督的 SOTA 有二三十个点的差距

局限性：

结构还是更偏向于图像编码器，没有很好的用到密集预测的特性，如多尺度、多感受野等等
分割效果好，但分类效果差

分割中存在背景类，作者为了尽可能的提高前景类的性能，作者这里设定了一个阈值，如 PASCAL VOC 设置为 0.9，就是当匹配的相似度超过 0.9 时，才会说 group embedding 属于这个类别，如果都没有超过阈值的话，就说明不是前景

这个操作都 PASCAL VOC 上这种前景特别明显类别少的数据集上表现还好，但在复杂数据集上前景类和背景类的得分差不了很多，设置一个很高的阈值就会导致把很多很多前景部分分割成了背景部分，设置很低的阈值就会造成错误分类，相似度最高的那个类别不是真正正确的那个类别。

这是作者自己发现的问题，通过观察发现 group token 学的挺好的，就是分割效果做的挺好的，就是最后的分类会分错。

所以作者直接拿了 gt 的类别标签，只使用 group vit 输出的 mask 和 gt 的标签进行 IoU 计算，IoU 最大的 gt label 直接给到预测 mask 作为类别，用这样的方式来验证到底是不是分类效果影响了最后的分割评价效果。

作者用这样的方式来验证后就得到了 table c.3 的结果，提高了二三十个点，和有监督的 SOTA 基本逼近了。这也验证了 group vit 已经把分割做的很好了，只是说语义没识别正确。

这种结果究其原因还是在于 CLIP 的这种训练方式，只能学到物体语义信息非常明确的物体，而无法学习到语义信息很模糊的东西。

1.2 CLIP 在目标检测上的改进工作

1.2.1 ViLD

这篇文章的开头就说明白了，本文要实现的就是能够检测任意的物体类别，做的方法就是把 CLIP 当做 teacher，蒸馏自己的网络

作者先给出了当前目标检测方法的限制，就是只能检测有限的基础类别，比如蓝框标出来的就叫 toy，那么模型就只能检测 toy，如果想检测绿色的玩具，或者鸭子，模型是没有办法检测的

所以是否能做到不额外标注鸭子、绿色玩具的情况下，模型就能识别这些目标呢，也就是能检测新类别的能力

论文的主体方法：

这个论文的思路其实是在基础类别上做有监督的训练的，也就是有监督的训练

A base line：

只涉及基础类别 $C_B$ ，也是 mask rcnn，第一阶段输出 N 个 proposal，然后抽特征，最后分类，会使用分类和定位来衡量目标检测的效果。ViLD 相当于把分类和定位这个两个任务给分开来了，输入的时候直接就是 N 个 proposal 了，第一阶段提取 proposal 的阶段没有体现在其中，也就是说文章的重点不在于提取 proposal，而在于第二阶段

B ViLD-text:

ViLD-text，只涉及基础类别 $C_B$ ，会从头开始训练，和 Mask rcnn 的差别在于适用固定的 text embedding 代替了可学习的分类器，这里的 N 个 proposal 输入是来自于第一阶段的 RPN 网络，和 mask rcnn 中的一样，是参与训练的。

主要是将图像特征（黄色 region embedding）和文本特征（蓝色 text embedding）做了关联，计算相似度。

输入是 N 个提取好的 proposal，经过一些映射得到 N 个 region embedding，对应 N 个 proposal 的特征

文本的 embedding 就是将物体要检测的类别拿过来先变成 prompt 模板（a phtot of {}），然后送入固定的文本特征提取器，也就是图中蓝色框中，得到对每个类别的文本编码特征，这里是使用基础类别的名称来监督检测的训练的，所以在这里也只是将文本和图像的特征做了关联，zero-shot 的特征还有待加强。

而且这里还有 background ，就指的是除过基础类别之外的其他类别的 text embedding，全部塞给背景类，背景类的文本编码是可学习的。N 个 region embedding 要同时和固定的 text embedding 和 background embedding 计算相似度。

C ViLD-image:

ViLD-image，同时涉及基础类别 $C_B$ 和新类别 $C_N$ 。使用的是用训练好的 RPN 预提取的 M 个 proposal

因为 ViLD-text 已经有了一定的图文关联能力了，但毕竟只是在基础类别上去训练的，如何扩展到新的类别上呢，或者如何把 CLIP 的能力引入到这个框架里边来呢，作者就提出了 ViLD-image。

作者认为 CLIP 预训练好的图像编码器很好，而且和文本的关联也很好，所以，如果这里这个黄色块的图像编码结果能尽可能的像 CLIP 输出的橘色块里边的图像编码，想做到这点就可以使用知识蒸馏。

具体做法就是粉色背景区域中（teacher 网络），对抽出来的 proposal 从原图中 crop，crop 出原图的区域并 resize，然后送入 CLIP 预训练好的编码器来得到 CLIP 的图像编码特征，这里 CLIP 图像编码器是不会参与训练的，是固定的参数。

ViLD-image 左边的这个分支呢就是 student 网络，包括检测头、特征映射层等，使用 L1 loss 做蒸馏。注意，这里的类别就不受基础类别的限制了，因为 proposal 是与类别无关是，是第一阶段的 RPN 网络提取的，监督信号是从 CLIP 来的。

但这里值得注意是 M 个 proposal，而不是之前的 N 个 proposal（前面这个 RPN 网络输出的就是 N 个 proposal），但肯定用全部生成的 proposal 会更好一些，但事实上，如果每次在训练的时候再抽取 CLIP 的特征（蓝色）呢就很费时间，而且作者想用最大最好的 CLIP 模型，这样就会更耗时。如果每次训练有 1000 个 proposal，那么就要进行 1000 次的图像特征提取，而且每次迭代都要提取这些 proposal 的特征，肯定会拉长训练时长。所以作者就在训练之前，先利用 RPN 预抽取 M 个 proposal，通过 CLIP 模型提取好特征，然后存储起来，在训练的时候直接拿来 embedding 就可以。所以这 M 个 proposal 和那 N 个可以在训练的时候改变的 proposal 是不一样的。

C ViLD:

左边是目标检测分支，右边是 CLIP 图像 embedding 的分支，右边只有在训练的时候才会用的，推理的时候是不会使用的。

具体的就是把 N 个 proposal 和 M 个预抽取的 proposal 全部输入检测头，得到 N+M 个 region embedding，N 个 embedding 去计算 cross entropy loss，M 个预抽取的 region embedding 去计算蒸馏的 L1 loss

训练整体过程：

ViLD-text 的过程：从头开始使用基础类别来训练特征提取器和图文匹配能力（基于第一阶段训练得到的 N 个 proposal ）

给定图片，先经过 RPN 得到 proposal，进行 RoIAlign，和 conv 层得到 embedding，得到图像编码
给定绿色基础类别，先进行 prompt 模板化，然后使用预训练好的文本特征提取器来提取 text embedding，得到文本编码
有了两组编码后，使用 cross entropy loss 来计算 loss

ViLD-image 的过程：使用 M 个 proposal 的 CLIP 特征指导学生网络的训练

对抽取好的 M 个 proposal，经过 CLIP 预提取 teacher 图像编码特征
让 student 网络学习这 M 个 proposal 的 teacher embedding

也就是说这 M 个预提取的 proposal 用于指导蒸馏，N 个可训练的 proposal 用于参与 proposal 特征的提取和图文的匹配

推理的过程：

给定图片，提取 proposal ，经过 RoIAlign，得到 region embedding
给定检测类别，送入 prompt 模板，得到 text embedding
对所有 region embedding 和 text embedding 计算相似度，得分最高的就是对应的类别

效果：

总结：

ViLD 算是第一个 LVIS 这么大的数据集上做开放词汇检测的方法，利用了 CLIP 的参数，也借鉴了 CLIP 了权重

1.2.2 GLIPv1

GLIP 的动机：如何像 CLIP 一样利用超多的容易获得的图像文本对儿来实现对任意目标的识别

所以本文主要围绕的也是如何扩大数据量级这个目标来做的

因为 phrase grounding 其实和目标检测的本质是一样的，那么是否能够将两个任务结合起来，将两种数据都利用起来，从而实现能够利用更多的数据就是作者思考的问题

此外，作者还把伪标签那种方法加进来，就是 self-training 的方法，在没有标注过的图像文本对儿上生成伪标签，从而扩大整个数据集的数量，来将整个模型训练的更好。

所以 GLIP 在 COCO 上 zero-shot 的效果就达到了 49.8AP，这在有监督里边都是很能打的效果

GLIP 是怎么把目标检测和 phrase grounding 结合起来的：将目标检测的类别全部放入 prompt 中作为检测类别

目标检测一般就是使用分类+定位的 loss 来实现
定位部分两个任务是差不多的，区别就在于如何计算分类的 loss，检测的类别标签是一个单词，phrase grounding 的标签是一个句子
检测的分类是用分类器来预测的，一个可学习的分类器
phrase grounding 的分类是用匹配分数来计算的，但都是类似的

作者验证了可行性后，就可以把 phrase grounding 数据集和检测数据集结合起来了，但还想进一步扩大数据集来支持各种各种的物体识别

所以作者进一步引入了 Cap4M 和 Cap24M 这些 caption 数据集，这些数据集是没有框的信息的，所以作者使用基于 Object365 和 GoldG 数据集训练好的 GLIP-T© 模型对这些图像-文本对儿进行推理，推理出来的 bbox 就当做 gt，但肯定不是很准确，所以叫做伪标签，通过提供伪标签的方式来进一步提高数据量。

总体的数据量是 3M 标注数据集+24M 伪标签数据集 = 27M数据量

总体框架：

分别抽取文本 embedding 和图像 embedding，都是单模态的特征
然后使用一些层来进行多模态特征的融合，让不同模态之间的特征多进行一些交互，就能让模型进一步将相似的图像-文本对儿的距离拉近，不相似的图像-文本对儿的距离拉远，总之能让特征更加有关联性，这里用的是 cross-attention
抽取完的图像特征和文本特征后，计算相似度矩阵，然后计算 alignment loss 和 localization loss 即可

效果：

单模态的模型都不能做 zero-shot，必须微调
GLIP-L zero-shot 已经很好了，fine-tuning 后更好

1.2.3 GLIPv2

将更多视觉定位和视觉理解任务都结合起来了，比 GLIPv1 做了更多的工作拓展，能做检测和分割，还能做 VQA 和 Image caption，而且为每次的迭代引入了更多的负样本，让不同图文对能拉的更远。

二、ViLT/ALBEF ：多模态融合在 VQA/VR 任务中更重要

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

我们已知 CLIP 在对有明显语义特征或者说很好描述的任务上表现的比较好，如图像分类，很好的描述这是狗或猫，但在难以很容易用语言描述清楚的任务，或者说文本描述比较复杂的任务上（VQA/VR）表现不太好，究其原因就在于 CLIP 只是对两个模态的特征进行了简单的融合匹配，并没有让模型学习到更深层次的图像-语言之间的内在关系

所以，我们已经知道在多模态中，图像编码器是要比文本编码器更重要的（虽然 ViLT 使用了轻量级的图像编码器达到了 trade-off，但效果是在是不太好），然后模态之间的融合也是很重要的，也就是类似于 c 中的样式，当然其中的视觉模型是使用 Vision transformer （而不是 ViLT 中的 linear embedding）

从 CLIP 的成功中可以知道使用 Image-text contrastive loss （ITC）一定是很有用的，所以一定要使用的，而且 ViLT 中的 WPA loss 计算起来非常慢，所以训练起来很费劲，还有两个常用的 loss，一个是Mask Language Modeling loss（MLM）在 NLP 里边应用的很多也很成功，还有一个是 Image-text Matching loss（ITM）在 ViLBERT 和 ViLT 中都取得了很好的效果，所以也继续采纳。

从这可以发现，一个好的多模态模型，可能使用 ITC+MLM+ITM 这三个 loss 就能取得较好的效果了

所以现在可以来看 ALBEF 的结构

ALBEF:

图像的编码器：12 层 transformer
文本的编码器：将 12 层的 BERT 分成了两部分，前 6 层做文本的编码器，后 6 层做多模态融合的编码器
这样的结构就是图像编码器更大，融合模型更大，文本编码器较小的结构
loss 也是使用了 ITC+MLM+ITM 这三个 loss

ViLT 的出发点：视觉编码使用目标检测方法的速度太慢了，想让速度变的更快一些

ALBEF 出发点和贡献：

贡献 1：使用对比学习 loss 在两个模态的特征融合之前先进行了特征对齐

用了预训练的目标检测器提取的视觉特征，和文本特征是没有 align 的，因为目标检测器是提前训练好的，用于抽特征，将两个距离很远的两种模态的特征同时送入 transformer 编码器的话，编码器不太好学习，就是很难以学习到图像和文本之间的交互信息。所以 ALBEF 就提出了一种对比学习的 loss（就是 ITC），能够在 fusing 之前就通过 cross-modal attention 把文本和图像特征进行对齐。
贡献 2：为了从 noisy 的数据中更好的提取特征，所以使用了 self-training 的方式来训练了模型（也就是伪标签），所以还使用了 MOCO 中提出的 momentum model 来生成伪标签，从而达到自训练的效果。为什么作者说从网上爬取的图像文本对儿是 noisy 的是因为，直接爬取的，很多文本并没有很好的描述对应的图像，而这些文本都是具有搜索性的，不是描述性的。

ALBEF 的效果：

ALBEF 在图文检索上超过了 CLIP
在 VQA 和 NLVR 上也超过了 SOTA
4M 数据集 8 卡训练 3 天，很亲民

ALBEF 的主体结构：左边是梯度更新的模型，右边是使用动量更新的模型，图像模型更大，文本模型更小，文本模型原始的 BERT 分了 6 层用于模态融合了，所以总体参数还是没有很大的变化的

图像模型：给定输入图片，切分成 patch，经过 patch embedding 送入 transformer encoder，输入为 256x256
文本模型：使用 BERT 做初始化，前 6 层用于提取文本特征，后 6 层用于多模态融合
动量模型：为了做 momentum distillation ，也为了给 ITC loss 提供更多的负样本，所以还有一个 momentum model，这个蒸馏模型不会梯度反传，而是使用 moving average 的方式来更新，产生的特征会更稳定

训练图像 embedding 和 BERT embedding 前 6 层的目标函数：

ITC Loss：用于训练图像 embedding 和 BERT embedding 的前 6 层

图像-文本对比学习，对比学习的目标是将一对样本拉近，非一对的样本拉远

图像和文本分别经过各自的编码器，都会有 768x1 的 cls token，然后将 cls token 映射为 256x1 的向量，两个 cls token 就分别代表图像和文本的特征，就希望一对的特征尽可能的近，和其他有 momentum model 产生的负样本（存在 q 里，共 65536 个负样本）特征尽可能的远，也是模型的第一阶段的学习。

也就是文章题目中 align before fuse 中的 align 过程。这里的 ITC loss 就是和 MOCO 完全一样，计算的是 cross entropy loss。

训练多模态融合的目标函数：

ITM Loss：Image-text matching，给定一个图像，给定一个文本，对各自 embedding 通过 attention 得到交互后的特征，然后使用分类头（FC）来判断 I 和 T 是不是一个对儿。

这个 loss 实际在想做好其实比较难，因为判断谁和谁是正样本对可能比较难，但判断谁和谁是负样本对很简单，因为一个图像匹配的文本只有一个，其他很多很多的文本样本都是负样本，所以在训练的时候精度能得到很大的提升，然后训练再久都没什么意义。

所以常见的做法就是在选负样本的时候给一些限制，这里就选择了难负样本来参与训练，也就是选择和正样本很接近的负样本来参与训练。

这里 batch size 假设是 512，那么一个迭代中正样本对就是 512，对于每一张图片，从哪里找 hard negative 文本呢，ALBEF 借助了上面的 ITC 来进行 hard negative 文本样本的选择，就是使用 ITC 计算一遍整个 batch 中所有图像和所有文本的相似度 cos similarity，选择除了自己之外的相似度最高的那个文本作为负样本，也就是这个文本和图像都非常相似了，但其实是一个负样本，所以 ITM loss 就变的很难了，这样才能进行有意义的训练
MLM Loss：把原来完整的句子进行 mask，擦除掉一些单词，把擦除了一些单词的句子和其对应的图片一起输入到 ALBEF 中，然后需要把之前完整的句子预测出来，这里不像 NLP 中单纯的 MLM，而是借助的图像信息

总体 loss（不带动量的）：

每次迭代前向传播的次数：2

ALBEF 这里计算 ITC 和 ITM 的时候使用的是图像和原始文本，需要进行一次前向传播
计算 MLM loss 是使用的是图像和 mask 后的文本，还需要进行一次前向传播
多模态任务很多模型都需要多次的前向传播，满足各种条件，所以一般训练时间都比较长

动量蒸馏：

为什么要做动量蒸馏：

爬取的图像文本对通常不是很匹配，会导致计算 loss 的时候会有偏差，因为可能比所谓的 gt 匹配更优的负样本，所以 one-hot label 这种 gt 方式（就是一个图像对应一个描述，其他都是负样本描述，或者一个 mask 中只能填一个单词）对 ITC 和 MLM 都不是很好，因为有的负样本也包含了很多好的信息，一味的惩罚这些负样本也不好
所以，如果能找到额外的监督信号，最好是 multi-hot 或另外一个模型的输出就更好的，作者先构建一个 momentum model ，来生成一个 pesudo-label，这个 pseudo targets 其实不是一个 one-hot 向量，而是 softmax score。
动量模型就是在已有模型之上进行指数移动平均（EMA），希望在训练原始 model 的时候，不只希望预测结果和原始输入（one-hot）很接近，还希望预测结果从动量模型的输出很接近，在一般情况下从 gt one-hot label 中学，如果 one-hot label 是 noisy 的时候或者是错的时候，模型能从动量模型中学习到一些改进。

带动量的 ITC loss ：

原来的 ITC loss 就是 $L_{ITC}$ ，是基于 one-hot label 的，新的 loss 还加了后面一项，把 gt 换成了 q（pseudo-label），因为 q 是 softmax 分布，所以就计算 KL 散度
最终的带动量的 ITC loss就是使用 gt 的 ITC + 使用 pseudo-label 的 ITC，两者使用权重相加

带动量的 MLM loss：

和 ITC 思路一样

注意：加入动量蒸馏后的全部 loss 一共有 5 个！！！

图 2 展示了使用动量模型能实现的效果，伪标签其实比 gt 更能准确形象的描述这个图像中的内容

预训练的数据集：

follow 了 UNITER 使用的数据集，CC3M（一张图一个文本），SBU（一张图一个文本）, COCO（一张图5个文本），VG（一张图多个文本），总共 400w 多图片，共 510 万 image-text pairs (5.1M)
当作者为了验证文中提出了 pseudo-label 的效果是不是有效的，就使用了更 noisy 的 CC12M 来验证的效果，将整个图像数量提高到了 14.1M，在各个下游任务上又涨了，也证明了其有效性

下游任务：

1、图文检索：图像到文本的检索，文本到图像的检索

衡量的指标是 Recall，使用一般是 Recall@1，Recall@5，Recall@10 这种衡量方式，就是判断在检索回来的这 1 个、5个、10 个样本中，有没有真正的样本，如果有就算找到了

fine-tuning 的效果比 SOTA 要好，使用更大数据集还是更好的

因为在 coco 上做了预训练了，所以作者只在 Flickr30K 上做了 zero-shot 测试，在 4M 上训练，zero-shot 的结果就比 CLIP 还要好

2、视觉蕴含：Visual Entialment

给定一个假设，能不能推理出来这个前提，如果能推理出来就是蕴含 entialment，如果没推理出来就是 contradictory，如果不知道能不能推出来就是中立 neutral。一般情况下都变成了3分类问题，衡量指标就是分类准确度

3、视觉问答：VQA

一般有两种方式来解决：

第一种闭集 VQA，answer 的 set 是闭合的，就是也看做分类任务，答案都是固定的，从里边去选，VQA2.0 数据集中就有设定好的 3192 个 answer
第二种开集 VQA，answer 的 set 是随机的，也就是为本是模型生成的，需要 decoder 生成 answer，难度就大了一些，有可能生成了很好的回答但是和 gt 不一致，那也会被判定错误

虽然 ALBEF 说能够做 answer generation 的任务，但推理的时候还是把生成的答案限制到了 3192 中，还是分类问题，衡量指还是准确度

4、视觉推理：Natural Language for Visual Reasoning（ $NLVR^2$ ）

预测文本能不能同时描述一对图像，是一个二分类任务，衡量指标也是准确度

5、Visual Grounding：视觉定位，一般视觉定位单独属于一个领域，很多做多模态表征学习的论文里都不会涉及到这个任务，专门做 grounding 的论文才会做这个任务

消融实验：

把 MLM+ITM 作为 baseline，然后加上了 ITC，在四个任务上分别提升了两三个点，所以说对比学习的 loss 是非常能打的，很有潜力
ITM 中的 hard negative ，有约 0.5 的提升
MoD：momentum distillation，预训练上使用 MoD，提升了约 0.3 个点，其实提升不是很大，但值得后续的研究

三、BLIP：提出了一个很好的为图像生成 caption 的方法

论文：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

代码：https://github.com/salesforce/BLIP

BLIP 是 ALBEF 的后续工作

题目中有两个关键词，也就是两个贡献点：

bootstrapping：使用直接爬取的数据集，训练一个模型，然后使用模型得到更干净的数据，使用更干净的数据来训练更好的模型
unified：统一视觉语言理解和生成任务

研究动机：

模型角度：最近的方法使用的就是 encoder-based（CLIP、ALBEF）或 encoder-decoder 的方法，这种 encoder only 的模型没法用到 text generation 的任务（比如为图像生成字幕）因为没有解码器的输出就没法直接的生成。encoder-decoder 的模型虽然有 decoder 能做生成的任务，不能直接的去做 image-text retrieval 的任务。所以两种框架都有限制，没法用一个模型来解决所有任务。BLIP 就是使用了 ALBEF 的很多想法，把他设计成了统一的框架，能用一个模型解决所有任务，也是利用了很多 VLMO 的想法
数据角度：当前表现好点方法 CLIP、ALBEF 等都是使用从网络上爬取的大量数据集来预训练的，虽然数据集中有很多噪声，但足够多的数据能弥补一些噪声带来的影响。但 BLIP 就证明使用这些带噪声的数据集不是最优的，于是 BLIP 就提出了 caption 和 filter model，caption 就是给图片生成文本，就能得到大量合成数据，filter model 就是将图像-文本不匹配的对删掉，如下图中的巧克力蛋糕，从网络上爬取时对应的描述是 ’blue sky bakery in sunset park’，也就是一个在 sunset 公园的叫 blue sky bakery 的蛋糕店。图文是明显不匹配的，不符合我们想要的描述。caption 模型能生成很好的描述，所以在训练的时候就使用的是 caption 生成的文本。

预训练框架结构如图 2：MED：Mixture of Encoder and Decoder

共包含了 4 个部分，图像有 1 个模型，文本有 3 个模型（分别来算 3 个 loss），每个文本模型对应的 token 是不同的，在训练的时候图像需要一次 forward，文本需要三次 forward，每次文本需要经过 3 个网络分别计算输出，训练很耗费时间
第一个文本模型 Text Encoder：使用 N 层，根据输入的文本进行分类的任务，就是对文本特征和视觉特征做对比学习 ITC loss，里边也用到了 ALBEF 的计算，使用了 momentum encoder 来做 distillation 和数据集的清理
第二个文本模型 Image-grounded Text encoder：主要做的是 VQA、VR 的这种理解任务，是多模态的编码器，借助的图像的信息来完成多模态的任务，计算的是图文匹配 ITM loss，同样的颜色是共享参数的，也就是前两个文本编码器的 attention 和 FF 都是共享的参数。这里计算 ITM 的时候也使用了 hard negative 的操作，就是计算了一个最难的负样本来作为负样本计算 ITM loss
第三个文本模型 Image-grounded Text decoder：做生成的任务，就是加了一个文本 decoder，绿色的 causal self-attention（推理自注意力）输入的文本是需要 mask 的，要盖住后面的单词，只有前面的单词是可见的，根据前面的单词来推理后面的单词，这里不和前面两个 attention 共享参数（共享参数的性能会下降），后面的 Cross Attention 和 FF 都是共享参数的，计算 Language model loss，就是给定单词预测剩下的词。不同于 MLM 的扣掉词来预测这个词的方法。

对数据的处理：Caption model 和 Filter model

数据集 D 中有网络爬取的数据集和手动标注的数据集，最大的问题就是爬取的数据中图片-文本不匹配，作者认为 COCO 这种手工标注的数据是匹配的，使用 noisy 的数据集预训练的模型效果肯定是不够好的，所以如果想清理数据集达到最优解的话，就需要做一些操作

清理数据集的方式可以使用一个有一定能力的模型，来计算图像和文本的相似度，相似度高的就说明匹配，不高的就说明不匹配。这就是 Filter 模型的由来

Filter 模型的训练方式：使用 COCO 微调预训练好的 MED 中的前两个文本编码器来做 noisy 图文对的删除

先使用所有的数据集 D 来预训练一个模型，也就是图 3 左侧中间的 encoder-decoder
然后把其中的 ITC 和 ITM 的两个文本模型拿出来，使用 coco 这种高质量的数据再进行一次 fine-tuning，右上箭头，微调过后的 MED 就是 Filter，然后使用 Filter 计算图像-文本的相似度，就可以知道是否 match，不 match 就删掉，就把红色的 Tw 变成了绿色的 Tw

Captioner 模型的训练方式：使用 COCO 微调预训练好的 MED 中的最后一个文本编码器来做优质文本的生成

为什么作者要加上这个 captioner 呢，就是给图像生成文本的这个模块
作者发现训练好的 decoder 非常强，有时候生成的句子比原始的文本更匹配
所以作者也是基于预训练好的 MED ，使用 COCO 数据集进行了 LM fine-tuning，得到了微调后的 Image-grounded text decoder，用这个 decoder 来为那些 $\text{Iw}$ (来自网络的图像) 生成对应的文本描述，也就是伪文本描述。
因为生成的伪文本描述毕竟是模型生成的，所有质量有好有坏，水平有高有低，所以作者把生成的伪文本描述和对应的图像还会过一遍 Filter，保留下来匹配度更好的伪标签

经过了 Filter 和 Caption 这两步后，可以用的数据集就变成了三部分：

没有被 Filter 掉的优质原始图文对（优质 Tw）
没有被 Filter 掉的优质生成图文对（优质 Ts）
手工标注的高质量图文对（如 COCO）

下图 4 中，Tw 是网络上的文本，Ts 是模型生成的文本，红色是被过滤掉的文本，绿色是被 Filter 保留下来的文本，直观看起来就能感受到模型的强大之处，说明 Filter 把数据集清理的相当好

对数据集进行了过滤和扩充后，作者使用这些优质的数据再重新预训练一个 MED ，就能很好的再次提升模型效果

模型效果展示：

主要结果和消融实验：

模型 backbone 保持一致的时候，数据集从 14M 到 129M 时，模型效果是普遍变好的
使用同样的数据集，把模型变大，模型效果也会更好

Caption-Filter 模式带来的效果：

不用的是最差的
使用 Caption 带来的描述的多样性，是更会让模型受益的，因为大模型一般都能自己消化掉 noisy，但因为模型巨大，所以一般都是 data hungry 的，非常需要大量的数据，所以使用更多更好的数据就能得到较好的受益
这里打对号的 B 和打对号的 L ：模型是分多阶段训练的，先使用粗糙数据预训练 MED，然后微调 Filter 和 Caption，最后再使用干净的数据重新预训练 MED。所以可以使用更大的模型 Large 来生成更好的 Caption，不用限制为 Base。也就是使用大的生成 decoder 来生成好的文本描述，来训练小的 MED。

BLIP 提出的 Caption 方法非常具有普适性，很有用

四、CoCa：视觉-文本任务在模型上的统一

论文：CoCa: Contrastive Captioners are Image-Text Foundation Models

CoCa 是 ALBEF 的一篇后续工作

左边是 image encoder，右边是 text decoder，右边文本的部分的前一半是做 unimodel 文本的特征，后面一般是做多模态的特征。
image encoder 是先对图像切 patch，然后使用 emcoder 来提取到一系列的 token，其中也包括 cls token，cls token 的作用是和文本特征做对比学习，其他的蓝色小框特征进行 attention pooling 传入多模态 decoder 中做 cross-attention
text decoder 是通过文本解码器得到文本的 cls-token
将第一阶段得到的图像 cls token 和文本特征 cls token 做对比学习，ITC loss
多模态特征的学习使用的是 Captioning loss，输入的是文本的特征和图像的特征，做 cross-attention 。这里的 Captioning loss 其实就是 BLIP 中用的 language modeling loss
整个模型有两个目标函数，所以就是 CoCa

CoCa 和 ALBEF 的两个区别：

一个明显的区别在于，这里图像特征使用了一个可学习的 attentional pooling，可学习的 pooling 能够针对不同的任务学到对应的特征，对多模态融合效果更好。
另外一个区别在于文本全部使用的 decoder，而且最后的 loss 是 caption loss，也就是这里文本的输入是 causal 的，也就是挡住后面的句子，只输入前面的句子。

为什么不用 ITM loss：

作者认为要训练更多的 loss 往往很复杂，一次训练需要多次进行前向传播，训练时间很长，代价很大
所以作者想要一次训练只进行一次前向传播，减少计算量和训练时间
所以文本的输入必须是 causal 的，这样才能保证一次前向传播能同时计算两个不同的 loss

训练数据集：几十亿的训练数据，模型大小 2.1B

CoCa 是多边形战士，没有角的就是不能做这个任务

CoCa 比之前所有的 SOTA 在所有数据集上的效果都是最优的

五、BeiTv3：模型、目标函数、模型和数据集 scale 也要统一

论文：Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

本文的出发点：将图像也看做语言，使用一个统一的目标函数，使用的数据都是开放的（CoCa 的训练数据量几十倍于 BeiTv3）

把图像叫做：Imglish
把语言叫做：English
模型：Multi-way Transformer

采取了 CoCa 的多边形图，展示了效果，在每个任务上都取得了最好的，紫色的圈

BeiTv3 是一个灵活的结构，推理的时候可以拆成各种各样的部分，可以做单模态的图像任务（分类、分割、检测）也可以做多模态的任务，也可以做语言任务

定量的展示了效果：

BeiTv3：做大做强统一的模型（unified framework）

出发点：

最近在语言、视觉、多模态任务上，大家研究大型预训练模型的热情都很高，一旦模型训练好之后，特征就能提取的非常好了，可以直接 transfer 到下游任务上去，尤其是模型足够大数据足够多的时候，就有可能训练出一个有通用性的 foundation model，性能很强大，但现在已经有了很多号称自己是 foundation model 的大模型，作者就想把这些 vision-language foundation model 进行统一，且是从下面三个方向来做统一
第一：模型的大一统。大一统的框架下，transformer 就更适合做多模态任务，当前多模态的模型有几种框架。但这几种不同的框架都是针对特定的任务的，需要根据下游任务来做修改，不够方便也不够泛化。所以本文作者提出了 Multiway transformer 来构建了一个大一统的模型结构
- 一种是 CLIP 这种 dual-encoder 的方式，就是有两个 encoder 进行两种模态特征的提取，然后使用简单的点乘来计算不同模态之间的相似性，适合做快速的检索任务
- 还有一种是 encoder-decoder 的架构，例如 BLIP、CoCa 等，用于做生成任务
- 第三种是 fusion-encoder 的架构，只用 encoder，如 ALBEF 和 VLMO，适合于做 image-text encoding
第二：目标函数的大一统。当前，基于 masked data modeling 的方法已经被用于很多模态，比如 BERT、BeiT，作者就想着能不能只用一个目标函数来把模型训练好。
- 把图像看成 language，叫做 Imglish，因为图像经过 transformer 后也是得到了 token，就能用同样的方法来处理文本和图像，在多模态中就可以把 image-text pairs 看做两个句子 “parallel sentences”，一切都变成 NLP 了。
第三：把模型和数据集增大（scale up）。只有用了很多的数据集和很大的模型，才有可能用一个模型解决所有的事情。在 BeiTv3 中，把模型扩展到了 billion 尺度，也最大尺度的收集了可获得的开放数据集来得到更多数据

BeiTv3 的预训练：

和 VLMO 的结构一样
使用了 multiway transformer，就是 MOME 层，前面的 self-attention 是共享参数的，不同任务的通路是不同的，参数也不共享
不同的输入模态决定了后面走哪一个分支
所有任务的目标函数都是 masked modeling，遮住图像或文本，恢复它就可以了

预训练完后做下游任务的 transfer：

只用 vision encoder（masked image modeling），就可以做图像任务，包括图像分类、图像分割、目标检测
只用 language encoder（masked language modeling），就可以做文本任务，BERT 能做的 BEIT 都能做
使用 fusion encoder，就可以做视觉理解任务，VQA、NLVR2 等
使用 dual encoder（类似 CLIP），就可以做高效的图文检索
使用 image grounded text encoder 来预测被 mask 掉的文本，就可以做文本生成任务（类似 BLIP 和 CoCa），image caption

你可能感兴趣的:(多模态,多模态,VLP,CLIP,BLIP,BEIT)

基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
推动视觉AI边界，智象未来HiDream荣登全球技术先锋榜单雷焰财经人工智能 AIGC 计算机视觉
近日，世界经济论坛“全球技术先锋”荣誉榜单正式揭晓，智象未来HiDream凭借尖端技术成就入选。智象未来HiDream成立于2023年3月，是一家专注于多模态AIGC技术应用的公司，由加拿大工程院外籍院士IEEE/IAPR/CAAIFellow梅涛博士创立。回顾过往，众多知名企业，如Airbnb、Google、Twitter和Spotify等，都曾获得世界经济论坛的“全球技术先锋”称号。然而，今年
免费实时AI图片编辑工具-多模态大模型：GPT-4o、grok、豆包、BAGEL、MagicQuill、OmniGen2 loong_XL AIGC aigc
纯自然语言对话实现图像编辑；参考https://zhuanlan.zhihu.com/p/1890036563586577897GPT-4ohttps://chatgpt.com/geminihttps://gemini.google.com/grokhttps://grok.com/?referrer=website
Veo 3 视频生成大模型完整操作教程（2025）迎风斯黄音视频人工智能
随着AI多模态能力的飞跃，GoogleDeepMind发布的Veo3成为了生成视频领域的一颗重磅炸弹。它不仅能够根据文本生成高质量的视频画面，还能同步生成对白、背景音和环境音，是目前最接近真正“AI导演”的大模型。本文将带你详细了解Veo3的功能、使用方式、提示词撰写技巧，以及完整的创作流程，适合希望用AI快速生成短视频、概念片段、广告、剧情短片等内容的创作者与开发者。一、Veo3是什么？Veo3
Midscene.js介绍和使用望华笙测试工具 ui 前端
Midscene.js介绍和使用由于课程任务的需要，本人去寻找了AI+软件测试的相关应用，发现了Midscene这一便利的UI自动化测试工具。本篇博客主要对Midscene作了介绍，也给出了本人在使用Midscene过程中遇到的问题及摸索到的解决方案。Midscene.js是一个开源的基于多模态大型语言模型的UI自动化测试工具，它是由字节的web-infra团队开发。它能够智能地“解析”用户界面并
IDE 大乱斗：Eclipse、VSCode、IDEA、Cursor 谁才是你的「梦中情码」？ zhysunny Java那些事 ide eclipse vscode intellij idea
IDE大乱斗：Eclipse、VSCode、IDEA、Cursor谁才是你的「梦中情码」？“啊！又卡死了！”小编第N次愤怒地拍打键盘，看着Eclipse的"无响应"提示欲哭无泪。“是时候换个新IDE了…但选哪个好呢？”别急，让我带你走进IDE选美大赛现场，看看这些选手们都有什么绝活！️选手1：Eclipse-老牌建筑师的工具箱优势：️稳如老狗：运行20年的经典之作完全开源：适合公司合规要求插件体系
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
软件著作权代码提取——固定页数 antzou java eclipse gitee 个人开发
文章目录背景目标实现下载背景协助公司完成软著申报的工作之一就是提供项目60页word源码。目标选择项目：可读取目录以及子目录。输出设置：页数、每页行数。操作便捷：免安装、免注册，开箱即用，一看就懂，有手就行。安全使用：离线工作、100%使用本地能力，0信息泄露。实现基于EclipseRCP技术框架开发,企业级应用的技术。软件著作权代码提取——固定页数下载antrcp-Assistant蚂蚁(离线)
Spring AI入门教学：从零搭建智能应用（2025最新实践）程序员子固 spring 人工智能 java ai
目录引言：为什么选择SpringAI？一、环境搭建（附避坑指南）1.开发环境要求2.依赖配置二、实战：智能客服接入（代码级详解）1.配置模型参数2.实现流式对话接口三、高级功能：多模态AI开发1.图像描述生成2.智能文档处理四、开发者工具箱1.调试技巧2.性能优化五、学习路径建议引言：为什么选择SpringAI？随着生成式AI技术的爆发式发展（如OpenAI的GPT-4.5新动态24），Java开
mysql之jdbc连接数据库和sql注入的问题
一，概述可能是自己的记忆力太差了，经常忘记一些很重要的知识点，记得个大概，等要用的时候就去找，结果还找不到。干脆，记博客里，怎么都找的到。这篇博客主要就是关于Jdbc(javadatabaseconnectivity)和MySql的，记录如何连接数据库及插入数据等等。二，工具及准备工作MyEclipse10,mysql驱动jar包（我用的是这个版本mysql-connector-java-5.0.
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
212springboot基于javaweb的城乡居民基本医疗信息管理系统医院（源码+文档+运行视频+讲解视频） QQ2279239102 vue java maven Springboot html
项目技术：springboot+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：IDEA，Eclipse,Myeclipse都可以。推荐IDEA;3.tomcat环境：Tomcat7.x,8.x,9.x版本均可4.硬件环境：windows7/8/101G内存以上；或者MacO
adb logcat　命令详解　log过滤 liao277218962 adb logcat 命令行 adb logcat
作者:万境绝尘转载请著名出处eclipse自带的LogCat工具太垃圾了,开始用adblogcat在终端查看日志;1.解析adblogcat的帮助信息在命令行中输入adblogcat--help命令,就可以显示该命令的帮助信息;[plain]viewplaincopyoctopus@octopus:~$adblogcat--helpUsage:logcat[options][filterspecs
基于大模型的短暂性脑缺血发作（TIA）全流程预测与诊疗辅助系统技术方案大纲 LCG元大模型医疗研究-方案大纲方案大纲人工智能深度学习机器学习
目录一、系统核心目标二、系统架构模块三、实验验证证据链系统架构流程图关键技术创新点一、系统核心目标构建多模态数据融合的TIA预测-干预-管理闭环，覆盖术前预警、术中决策、术后康复全周期二、系统架构模块1.术前预测模块高危人群筛查模型输入：电子健康记录(EHR)、基因数据、可穿戴设备实时监测特征工程：血压波动模式、颈动脉斑块稳定性评分TIA发作概率预测72小时预警模型（LSTM+Transforme
MCP多模态模式 goodfornothing-s microsoft
多模式整合多模态应用在人工智能领域日益重要，能够实现更丰富的交互和更复杂的任务。模型上下文协议(MCP)提供了一个框架，用于构建能够处理各种类型数据（例如文本、图像和音频）的多模态应用。MCP不仅支持基于文本的交互，还支持多模式功能，允许模型处理图像、音频和其他数据类型。介绍在本课中，您将学习如何构建多模式应用程序。学习目标学完本课后，您将能够：了解多模式选择实现多模式应用程序。多模式支持架构多模
PPT转视频技术方案：基于多模态大模型的完整解决方案 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战 powerpoint 音视频 AIGC ai 人工智能
PPT转视频技术方案：基于多模态大模型的完整解决方案文章目录PPT转视频技术方案：基于多模态大模型的完整解决方案1.技术本质与原理通俗解释2.技术架构设计系统架构图核心模块说明3.详细技术实现3.1PPT解析模块3.2内容理解与脚本生成模块3.3音频大模型接口3.4图像大模型接口3.5多模态同步引擎3.6视频合成引擎3.7主控制器4.技术对比分析不同PPT转视频方案对比音频大模型对比图像大模型对比
GaussDB架构深度解析：云原生与多模态融合的数据库新范式喜酱的探春 gaussdb 架构云原生
GaussDB架构深度解析：云原生与多模态融合的数据库新范式在数字经济时代，数据已成为企业核心资产，数据库作为数据管理的基石，正面临云原生、多模态、智能化与高可用性的多重挑战。华为云GaussDB凭借其前瞻性架构设计，实现了从传统数据库向新一代云原生数据库的跨越。本文将从分层架构、核心技术、应用场景三个维度，全面解析GaussDB如何重构数据库技术边界。一、GaussDB架构设计：分层解耦与云原生
增强现实（AR）与人工智能的融合：从虚拟交互到智能体验的IT新革命 DevKevin 日常笔记 ar 人工智能交互
文章目录引言：虚实融合的临界点一、技术融合：构建感知-决策-执行的闭环系统1.1AR如何突破AI的"最后一公里"1.1.1三维空间理解（扩展技术细节）1.1.2多模态交互通道（新增章节）1.2AI如何赋予AR"大脑"（扩展决策体系）1.2.1动态内容生成三阶段二、演进路线：从技术探索到产业爆发2.1关键技术里程碑2.2中国创新加速度三、行业渗透：改写商业逻辑的五大场景3.1工业维保新范式3.2元宇
图14CLIP 模型在 “分布偏移场景” 下的鲁棒性优化策略｜学习笔记学渣67656 笔记人工智能
一、先明确：左图的核心对比维度左图的横轴是“模型在标准分布上的准确率”，纵轴是“模型在分布偏移数据集上的准确率”，本质是对比“不同模型/策略在“标准性能”与“鲁棒性”之间的权衡，图中每条曲线代表一类模型/策略的“标准性能-鲁棒性”趋势，而红色箭头标注的“AdapttoImageNet”是一种“干预策略”，作用于CLIP模型后，使其性能点落在对应曲线上。二、左图中6条曲线的含义（按图例颜色+模型类型
保障数字正义：基于区块链与Merkle树技术的司法取证销毁证据链体系（2025技术全景）百态老人区块链
一、技术架构与核心原理1.四维时空数据锚定体系通过融合区块链时间戳、量子加密哈希与三维Merkle森林结构，构建不可篡改的司法证据生命周期管理框架：原始证据时空切片多模态Merkle树
eclipse远程连接linux,c - 使用Eclipse通过SSH处理远程项目燕衔泥PPT
c-使用Eclipse通过SSH处理远程项目我有以下方框：带有EclipseCDT的Windows框，一个Linux机器，只能通过SSH访问我。构建和运行我的项目所需的编译器和硬件都只在机器B上。我想使用EclipseCDT从该项目的Windows框中“透明地”工作，并能够在IDE中远程构建，运行和调试项目。我如何设置：大楼会起作用吗？任何比编写本地makefile更简单的解决方案，然后调用一个远
Flash图片切换与过渡效果实战教程闲书郎
本文还有配套的精品资源，点击获取简介：Flash是用于创建动态内容和交互式多媒体应用的工具，其中图片切换过渡效果是提升用户体验的重要手段。本文详细介绍了实现Flash过渡效果的关键知识点，包括时间轴与帧的管理、图层管理、ActionScript脚本编写、内置与自定义过渡效果以及MovieClip元件的使用。最后，通过分析Flash源文件和编译后的影片文件，展示了这些技术在实际项目中的应用。1.过渡
15.5 情感识别准确率86.2%！LanguageMentor实时动态对话系统让学习效率飙升15% 少林码僧学习 langchain llama 人工智能语言模型
情感识别准确率86.2%！LanguageMentor实时动态对话系统让学习效率飙升15%LanguageMentorAgent高级对话功能：情感识别与动态调整关键词：情感分析集成、动态难度调节、多模态上下文感知、实时反馈机制、对话状态管理1.情感识别架构设计通过三层处理实现智能对话调节：
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

【多模态】26、视觉-文本多模态任务超详细介绍 「CLIP/LSeg/ViLD/GLIP/ALBEF/BLIP/CoCa/BEIT」