黑洞是不黑

Multimodal Learning with Transformer: A Survey

Transformer多模态学习

Abstract
1 INTRODUCTION
2 BACKGROUND
- 2.1 Multimodal Learning (MML)
- 2.2 Transformers: a Brief History and Milestones
- 2.3 Multimodal Big Data
3 TRANSFORMERS: A GEOMETRICALLY TOPOLOGICAL PERSPECTIVE
- 3.1 Vanilla Transformer
- - 3.1.1 Input Tokenization
  - 3.1.2 Self-Attention and Multi-Head Self-Attention
  - 3.1.3 Feed-Forward Network
- 3.2 Vision Transformer
- 3.3 Multimodal Transformers
- - 3.3.1 Multimodal Input
  - 3.3.2 Self-Attention Variants in Multimodal Context
  - 3.3.3 Network Architectures
4 THE APPLICATION PERSPECTIVE
- 4.1 Transformers for Multimodal Pretraining
- - 4.1.1 Task-Agnostic Multimodal Pretraining 任务不可知的多模式预训练

Abstract

Transformer是一种很有前途的神经网络学习者，在各种机器学习任务中都取得了巨大的成功。由于近年来多模态应用和大数据的流行，基于转换器的多模态学习已成为人工智能研究的热点。本文对面向多模态数据的变压器技术进行了全面的研究。本调查的主要内容包括：
（1）多模态学习的背景，变压器生态系统，和多模态大数据时代
（2）理论审查香草变压器，视觉变压器，多模态变压器，从几何拓扑的角度
（3）回顾多模态变压器应用，通过两个重要的范式，即多模态预训练和特定的多模态任务
（4）总结多模态变压器共同挑战和设计的模型和应用程序（5）讨论开放问题和潜在的研究方向

1 INTRODUCTION

人工智能(AI)最初的灵感是模仿人类的感知，例如，看、听、触摸、闻。一般来说，模态通常与特定的传感器相关，该传感器创建一个独特的通信通道，如视觉和语言[1]。在人类中，我们的感官感知的一个基本机制是能够集体利用多种感知数据的模式，以便在动态的、无约束的环境下与世界适当地互动，每一种模式都作为一个不同的信息源，具有不同的统计特性。例如，一幅图像通过数千个像素给出了一个“大象在水中玩耍”场景的视觉外观，而相应的文本用一个使用离散单词的句子来描述这一时刻。从根本上说，一个多模态人工智能系统需要摄取、解释和推理多模态信息源，以实现类似的人类水平的感知能力。多模态学习(MML)是一种建立人工智能模型的通用方法，它可以从多模态数据[1]中提取和关联信息。

本调查关注多模态学习与Transformer[2]（如图1所示），灵感来自他们内在的优势和可扩展性建模不同的模式（如语言、视觉、听觉）和任务（如语言，翻译、图像识别、语音识别）与更少的模式特定架构假设（如翻译不变性和视觉中局部网格注意偏差）[3]. 具体地说，对变压器的输入可以包含一个或多个令牌序列，每个序列的属性（例如，模态标签，顺序），自然允许MML不修改架构[4]. 此外，通过控制自我注意的输入模式，可以简单地实现每模态特异性和模态间相关性的学习。重要的是，最近有大量不同学科的研究尝试和活动在探索变压器架构，导致近年来大量新的MML方法被开发出来，同时在[4]、[5]、[6]、[7]、[8]等不同领域取得了重大和不同的进展。这需要对代表性方法进行及时的审查和总结，使研究人员能够了解跨相关学科的MML领域的全球图景，更重要的是捕捉当前成就和重大挑战的整体结构化图景。

Taxonomy（分类系统） 为了获得更好的可读性和可达性我们分别采用了一种基于应用程序维度和挑战维度的两层结构化分类法，这有几个好处：
（1）在特定应用领域具有专业知识的研究人员可以在连接到其他相关领域之前找到那些适合他们自己的研究领域的应用程序。
（2）在不同领域开发的类似模型设计和架构可以总结为一个抽象的、公式驱动的视角，以便在不同应用中形成的各种模型的数学思想可以在共同点上进行关联和对比，跨越特定领域的限制。至关重要的是，我们的分类提供了一个有趣的立体视图，包括应用特异性和公式普遍性的见解。希望这有助于打破领域边界，促进更有效的跨模式的思想交流和交换。通过使用提示建模策略[9]作为调查的基础，我们还包括了经典的分类问题（例如，图像分类）——通常被认为是传统MML调查中的单一模态学习应用——作为一个特殊的MML应用。这有可能显著丰富MML，因为分类问题是[12]文献中最广泛的研究之一。

Scope（范围） 本调查将讨论变压器架构的多模态具体设计，包括但不限于以下模式：RGB图像[5]，深度图像[13]，视频[7]，音频/语音/音乐[13]，[14]，[15]，[15]，表[16]，场景图/布局[17]，[18]，[19]，姿势骨架[20]，SQL[21]，[22]，配方[23]，编程语言[24]，手语[25]，[26]，[27]，点云[28]，符号知识（图）[29]，[30]，多模态知识图[31]，草图绘图[32]，[33]，[34]，[35]，3 D对象/场景[36]，[37]，[38]，文档[39]，[40]，[41]，[42]，编程代码[43]，摘要语法树(AST)——一种图[44]、光流[45]、医学知识（例如，诊断代码本体[46]）注意，本调查不会讨论多模态论文，其中变压器只是作为特征提取器没有多模态设计。

Features and Contributions 据我们所知，本文是第一次全面回顾了基于变压器的多模态机器学习的状态。本次调查的主要特点包括：
（1）我们强调，Transformer的优势在于，它们可以以一种模态不可知论（modality-agnostic）的方式工作。因此，它们与各种模式（和模式的组合）相兼容。为了支持这一观点，我们首次从几何拓扑的角度理解了在多模态背景下的变压器的内在特征。我们建议将自我注意视为一种图样式建模，它将输入序列（包括单模态和多模态）建模为一个全连通的图。具体来说，自注意模型是从任意模态中嵌入任意标记作为图节点。
（2）我们在多模态背景下尽可能从数学的角度讨论变压器的关键组件。
（3）基于Transformer，跨模态的相互作用（例如，融合、对齐）本质上是由自我注意及其变体来处理的。在本文中，我们从自我注意设计的角度，提取了基于变压器的MML实践的数学本质和公式。

在我们对多模态学习、变压器生态系统和多模态大数据时代的景观进行了回顾后，我们总结了我们的主要贡献如下
（1）我们从几何拓扑的角度对香草变压器、视觉变压器和多模态变压器（Vanilla Transformer, Vision Transformer, and multimodal Transformers）进行了理论回顾；
（2）我们从两个互补的角度，对基于变压器的MML进行了分类，即基于应用程和基于挑战性。在第4节中，我们通过两个重要的范式，回顾了多模态变压器的应用，即，对于多模态预训练和对于特定的多模态任务。在第5节中，我们总结了各种多模态变压器模型和应用所共有的共同挑战和设计。
（3）我们讨论了基于变压器的MML当前的瓶颈、存在的问题和潜在的研究方向。

Organization of this Survey 本调查的其余部分组织如下：第2节介绍了使用变形金刚的多模态机器学习的背景，包括历史视角和关键里程碑。第三节讨论了变压器、视觉变压器和面向多模态的变压器的关键设计特点。在第4节中，我们从应用程序和代表性模型的角度提供了多模态变压器模型的一些分类法。在第5节中，我们总结了这一领域的关键挑战和设计。第6节讨论了一些存在的问题和潜在的研究方向。第7节提出结论。
在整个调查过程中，除非另有说明，数学符号和缩写术语都遵循表1中的约定。

2 BACKGROUND

2.1 Multimodal Learning (MML)

MML[1]，[63]是近几十年来一个重要的研究领域；早期的多模态应用-视听语音识别研究在20世纪80年代[64]。MML是人类社会的关键。我们人类生活的世界是一个多模态的环境，因此我们的观察和行为都是多模态的[65]。例如，人工智能导航机器人需要多模态传感器来感知现实世界的环境，[66]、[67]、[68]，如相机、激光雷达、雷达、超声波、GNSS、高清地图、里程表。此外，人类的行为、情绪、事件、行为和幽默都是多模态的，因此各种以人为中心的MML任务被广泛研究，包括多模态情绪识别[69]、多模态事件表示[70]、理解多模态幽默[71]、基于脸-身体-声音的视频人聚类[72]等。

由于近年来互联网的发展和各种各样的智能设备，越来越多的多模态数据在互联网上传输，从而出现了越来越多的多模态应用场景。在现代生活中，我们可以看到各种多模式的应用，包括商业服务(例如，电子商务/商品检索[73]，视觉和语言导航(VLN)[68]，[74]，[75]，[76]，[77]，[78]，[79]，[80]，[81]，[82]，[83])，通信（例如，唇读[84]，手语翻译[25]，[26]，[85]），人机交互[86]，医疗保健AI[87]，[88]，监控AI[89]等。

此外，在深度学习时代，深度神经网络极大地促进了MML的发展。特别是，变形金刚[2]是一个竞争非常激烈的架构家族，给MML带来了新的挑战和机遇。

2.2 Transformers: a Brief History and Milestones

Transformer正在成为一个很有前途的学习者。香草（Vanilla）变压器[2]受益于自我注意，它受益于自我注意机制，是一种突破性的序列特异性表示学习模型，在各种NLP任务上实现了最先进的水平。随着香草变压器的巨大成功，许多衍生模型被提出，如BERT[4]、BART[90]、GPT[91]、GPT-2[92]、GPT-3[93]、长型[40]、变压器-XL[94]、XLNet[95].

Transformer目前在NLP领域占据主导地位，这促使研究人员试图将Transformer应用于其他模式，如视觉领域。在早期的视觉领域尝试中，早期探索的一般管道是“CNN特性+标准变压器编码器”，研究人员通过调整到低分辨率，重塑为一维序列[96]，实现了bert式的预训练。

视觉变压器(ViT)[5]是一项开创性的工作，通过应用变压器的编码器到图像的端到端解决方案（请参见图2）ViT及其变体已被广泛应用于各种计算机视觉任务，包括低级任务[97]、识别[98]、检测[99]、分割[100]等，也适用于监督[98]和自监督[101]、[102]、[103]视觉学习。此外，最近发布的一些工作为ViT提供了进一步的理论理解，例如，其内部表示的鲁棒性[104]，其潜在表示传播[105]，[106]的连续行为。

由于变压器和ViT的巨大成功，VideoBERT[7]是一项突破性的工作，它是第一个将变压器扩展到多模态任务的工作。VideoBERT展示了变压器在多模态环境下的巨大潜力。继VideoBERT之后，有许多基于变压器的多模态预训练模型已经成为机器学习领域越来越感兴趣的研究课题。

2.3 Multimodal Big Data

在过去的十年里，随着社交媒体和在线零售等互联网应用程序的快速发展，人们提出了大量的多模态数据集 e.g. Conceptual Captions [127], COCO [128], VQA [129], Visual Genome [130], SBU Captions [131], Cooking312K [7], LAIT [120], eSNLI-VE [132], ARCH [133], Adversarial VQA [134], OTTQA [16], MULTIMODALQA (MMQA) [135], VALUE [136], Fashion IQ [137], LRS2-BBC [138], ActivityNet [139], CNERTA [140], DVD [141], VisDial [142], PhotoChat [143].在

最近发布的多模态数据集中，突然出现的一些新趋势是：
（1）数据规模更大。最近发布的各种数据集都是百万级的
（2）更多的模式。除了视觉、文本和音频的一般模式外，还会进一步出现不同的模式，例如，PanoAVQA1第一个关于360个◦视频的大规模空间和视听问题回答数据集，YouTube-360(YT-360)（360个◦视频），AIST++(一个新的3D舞蹈动作和音乐的多模态数据集)，Artemis[154]（视觉艺术的情感语言）。特别是，多台式[155]提供了一个包括10种模式的数据集。
（3）更多的场景。除了常见的标题和QA数据集外，还研究了更多的应用和场景，例如，CIRR[156]（真实图像）、产品1M[144]、床和早餐(BnB)[157]（视觉和语言导航）、M3A[158]（财务数据集）、X-World[159]（自动驱动器）。
（4）任务更加困难。除了简单的任务之外，还提出了更抽象的多模态任务，例如，MultiMET[160]（一个用于隐喻理解的多模态数据集）、仇恨模因[161]（多模态模因中的仇恨语音）。
（5）的教学视频已经变得越来越流行，例如，烹饪视频YouCookII[162]。将一系列指令与某人执行任务的视频对齐是一个强大的训练前借口任务[7]，[163]的一个例子。

与其他深度神经网络架构类似，变压器也很需要数据。因此，他们的高容量模型和多模态大数据基础共同创造了基于变压器的多模态机器学习的繁荣。例如，大数据为VLP变压器模型带来了 zero-shot learning学习能力。

3 TRANSFORMERS: A GEOMETRICALLY TOPOLOGICAL PERSPECTIVE

在本节中，我们使用数学公式来回顾Vanilla Transformer[2]、视觉变压器[5]和多模态变压器的关键技术，包括tokenized inputs、自我注意、多头注意、basic Transformer layers/blocks等。我们强调，Vanilla变压器可以从几何拓扑的角度来理解[164]，因为由于自注意机制，给定来自任何模式的每个tokenized input，Vanilla self-attention（变压器）可以将其建模为拓扑几何空间[165]中的全连通图。与其他深度网络相比(例如，CNN在对齐的网格空间/矩阵中受到限制)，Transformer本质上具有一个更通用和更灵活的建模空间。这是Transfromer在多模态任务中的一个显著优势。第3.1节和第3.2节将分别审查Vanilla变压器和视觉变压器的关键设计。有关更多细节，我们请读者参考上面引用的原始论文。

3.1 Vanilla Transformer

Vanilla Transformer具有编解码器结构，是基于变压器的研究领域的起源。它采用标记化的输入（参见第3.1.1节）。它的编码器和解码器都由变压器层/块堆叠，如图1所示。每个块有两个子层，即多头自注意(MHSA)层（见第3.1.2节）和位置级全连接前馈网络(FFN)（见第3.1.3节）。为了帮助梯度的反向传播，MHSA和FFN都使用了残差连接(给定一个输入 $x$ ，任何映射 $f (\cdot)$ 的残差连接被定义为 $x \leftarrow f (x) + x$ )，然后是归一化层。因此，假设输入张量为Z，MHSA和FFN子层的输出可以表示为：
$\mathbf{Z} \leftarrow N(\text { sublayer }(\mathbf{Z})+\mathbf{Z})\tag{1}$ Discussion
有一个重要的未解决的问题，即后标准化和前标准化。原始的Vanilla变压器对每个MHSA和FFN子层使用后标准化。然而，如果我们从数学的角度来考虑这一点，前标准化就更有意义了。这与矩阵理论的基本原理相似，即归一化应该在投影之前进行，例如，格兰姆-施密特过程2。这一问题需要通过理论研究和实验验证来进一步研究。

3.1.1 Input Tokenization

Vanilla变压器最初是作为机器翻译的序列到序列的模型，因此可以直接将词汇序列作为输入。如前所述，原始的自我注意可以将任意输入建模为一个全连接的图，独立于模式。具体来说，香草和变体变形金刚都采用了tokenized sequences，其中每个token都可以被视为图中的一个节点。

Discussion
input tokenization的主要优点包括：
（1）从几何拓扑的角度来看，标记化是一种更一般的方法，通过最小化由不同模态引起的约束来实现。
（2）标记化是一种通过连接/堆栈、加权总和等方式来组织输入信息的更灵活的方法。Vanilla 变压器通过对位置嵌入的求和的方式给 token embedding 加入时间信息。例如，当使用变压器建模徒手草图[167]时，每个输入token 可以集成各种图形笔划模式，例如，笔划坐标、笔划顺序、笔状态（开始/结束）。
（3）令牌化与特定于任务的定制令牌兼容，例如，用于分类的[CLASS]标记，用于屏蔽语言建模的[MASK]标记(MLM)。
（4）此外，标记化可以帮助变压器本质上处理多模态数据，甚至Vanilla 变压器也可以通过连接、加权求和灵活地编码多模态输入，即使不需要任何多模态定制修改。

Position Embedding Vanilla 变压器利用正弦和余弦函数来产生位置嵌入。到目前为止，已经提出了各种位置嵌入的实现。具体的解决方案超出了本次调查的重点范围。

Discussion
如何理解嵌入到变压器中的位置是一个开放性的问题。它可以被理解为一种特征空间的隐式坐标基，为变压器提供时空信息。对于云点[168]和草图绘制笔画[167]，它们的标记元素已经是一个坐标，这意味着位置嵌入是可选的，而不是必需的。此外，位置嵌入还可以看作是一种一般的附加信息。换句话说，从数学的角度来看，可以添加任何附加信息，例如位置嵌入方式的细节，例如素描笔画[167]的笔状态、监视[169]中的摄像机和视点。有一个全面的调查[170]讨论了变压器的位置信息。对于句子结构（顺序）和一般图结构（稀疏、任意和不规则），位置嵌入可以帮助变形器学习或编码底层结构。从自我注意的数学角度来看，即按比例计算的点积注意，如果位置嵌入信息缺失，注意对单词（在文本中）或节点（在图中）的位置是不变的。

3.1.2 Self-Attention and Multi-Head Self-Attention

Vanilla 变压器的核心部件是自我注意(SA)操作[2]，也被称为“Scaled Dot-Product Attention”. 假设 $\mathbf{X}=\left[\mathbf{x}_{1}, \mathbf{x}_{2}, \cdots\right] \in \mathbb{R}^{N \times d}$ 是一个包含N个元素/token的输入序列，可选的预处理是通过点求和的位置编码 $\mathbf{Z} \leftarrow \mathbf{X} \oplus \text { Position Embedding }\\ \text {or}\\ \mathbf{Z} \leftarrow \text{concat}(\mathbf{X} , \text { Position Embedding })$
给定一个输入序列，自注意允许每个元素关注所有其他元素，因此自注意将输入编码为一个完全连接的图。因此，香草变压器的编码器可以看作是一个完全连接的GNN编码器，并且变压器家族具有全局的非局部感知能力，类似于非局部网络[171]。

Masked Self-Attention (MSA)
在实践中，需要修改自我注意，以帮助变压器的解码器学习上下文依赖，以防止位置关注后续的位置，即 $\mathbf{Z}=M S A(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{Softmax}\left(\frac{\mathbf{Q K}^{\top}}{\sqrt{d_{q}}} \odot \mathbf{M}\right) \mathbf{V} \tag{4}$ 其中M是一个掩蔽矩阵。例如，在GPT[91]中，一个上三角形掩码，使每个令牌只能查看过去的令牌。掩码可用于变压器的编码器[167]、[172]和解码器，并具有灵活的实现，如0-1硬掩模[167]、软掩模[172]。

Discussion
在单模态和多模态的实践中，特定的面具都是基于领域知识和先验知识来设计的。本质上，MSA用于向变压器模型注入额外的知识，例如，[21]、[167]、[173]、[174]。

Multi-Head Self-Attention (MHSA)
在实践中，多个自注意子层可以并行堆叠，其连接的输出通过投影矩阵W融合，形成一个称为多头自注意的结构： $\mathbf{Z}=M H S A(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{concat}\left(\mathbf{Z}_{1}, \cdots, \mathbf{Z}_{H}\right) \mathbf{W}\tag{5}$ 其中，每个头部 $Z_h=SA(Q_h,K_h,V_h),h∈[1,H]$ ，W是一个线性投影矩阵。MHSA的概念是一种集合体。MHSA帮助模型共同关注来自多个表示子空间的信息。

3.1.3 Feed-Forward Network

多头注意子层的输出将通过位置级前馈网络(FFN)，该网络由具有非线性激活的连续线性层组成。例如，一个两层的FFN可以被表述为 $N(\mathbf{Z})=\sigma\left(\mathbf{Z} \mathbf{W}_{1}+\mathbf{b}_{1}\right) \mathbf{W}_{2}+\mathbf{b}_{2}\tag{6}$ 其中，W1, b1, W2和b2表示两个线性变换的权值和偏差，而 $σ (\cdot)$ 为非线性激活，如 $R e LU (\cdot) [61], GE LU (\cdot) [62]$ . 在一些变压器文献中，FFN也被称为多层感知器(MLP).

3.2 Vision Transformer

视觉变压器(ViT)[5]为视觉领域提供了一个强大的端到端解决方案，这是一个基于标准变压器编码器的面向图像的网络。它有一个特定于图像的输入管道，其中输入图像必须被分割成固定大小的（例如，16×16,32×32）补丁。在通过线性嵌入层并添加位置嵌入后，所有的补丁级序列都将由一个标准的变压器编码器进行编码。给定一个图像 $X∈\mathbb{R}^{H×W×C}$ (H高度，W宽，C通道)，ViT需要将X重塑为一系列扁平的2D补丁： $X^p\in \mathbb{R}^{N\times(P^2\cdot C)}$ ，其中(P×P)是补丁分辨率 $N=HW/P^2$ . 为了进行分类，一个标准的方法是在嵌入的补丁的序列前准备一个额外的可学习的嵌入“classification token”[CLASS]： $\mathbf{Z} \leftarrow \operatorname{concat}([\text { CLASS ] }, \mathbf{X W})\tag{7}$ 其中，W表示投影。

3.3 Multimodal Transformers

近年来，大量的Transformer被广泛研究用于各种多模态任务，并显示其在识别和生成任务中与各种模态兼容。

在本节中，我们将从多模态输入（第3.3.1节）、自注意变量（第3.3.2节）和网络架构（第3.3.3节）的角度，回顾现有多模态变压器模型的关键技术/设计。

3.3.1 Multimodal Input

变压器族是一种通用的体系结构，可以表示为一种一般的图神经网络。具体来说，自注意力可以通过关注全局（非局部）模式，将每个输入作为一个完全连接的图来处理。因此，这种内在特征有助于变压器在一个与模式无关的管道中工作，该管道通过将每个标记的嵌入作为图的一个节点，与不同的模式兼容。

给定一个来自任意模态的输入，用户只需要执行两个主要步骤， (1） tokenize the input，（2）在将数据输入到变压器中之前，选择一个嵌入空间来表示标记。在实践中，令牌输入和令牌选择嵌入对于变压器来说是至关重要的，但非常灵活，有许多替代方案。例如，给定一个图像，标记化和嵌入的解决方案并不是唯一的。用户可以在多个粒度级别上选择或设计标记化——粗粒度和细粒度。例如，使用 ROI 和CNN特征作为令牌和令牌嵌入[107]，使用补丁和线性投影作为令牌和令牌嵌入[5]，或者使用图节点（由对象检测器和图生成器获得）和GNN特征作为令牌和令牌嵌入[183]。给定一个令牌化计划，后续的嵌入方法可以是多样化的。例如，对于视频输入，一个常见的标记化是将视频上的非重叠窗口（下采样）视为标记，然后它们的嵌入可以被各种3DCNNs提取，例如，VideoBERT[7]，CBT[112]和UniVL[122]使用S3D[188]，ActBERT使用ResNet-3D[189].

表2总结了变压器的多模态输入的一些常见做法，包括RGB、视频、音频/语音/音乐、文本、图形等。

Discussion
从几何拓扑的角度来看，表2中列出的每一种模式都可以看作是一个图。RGB图像本质上是像素空间中的一个整洁的网格图。视频和音频都是基于剪辑/片段的图形，在一个复杂的空间上，涉及时间和语义模式。二维和三维绘图[86]，[167]都是一种稀疏图，如果我们考虑它们沿着图形笔画的关键点。与草图相似，人的姿势也是一种图形。三维点云是一个每个坐标都是一个节点的图。其他抽象模式也可以解释为图形，例如，源代码[43]、源代码[43]的数据流、表[16]、SQL数据库模式[22]、文本问题图[21]和电子健康记录(EHRs)。

Special/Customized Tokens
在变形金刚的单模态和多模态模型中，各种特殊/自定义令牌在语义上被定义为令牌序列中的占位符，例如，class token[CLS]、separator token[SEP]。表3列出了一些常见的特殊tokens.

Token Embedding Fusion
在实践中，变压器允许每个令牌位置包含多个嵌入。这本质上是一种嵌入的早期融合，对于单模态和多模态变压器模型。最常见的融合是对多个嵌入的标记级求和（token-wise summing）例如，一个特定的标记嵌入⊕位置嵌入。与灵活的标记化类似，标记嵌入融合也很灵活，并且广泛应用于单模态和多模态变压器的应用。在[89]中，使用标记加权求和对多模态监测人工智能进行RGB和灰度图像进行早期融合。特别是，令牌嵌入融合在多模态变压器应用中发挥着重要作用，因为各种嵌入可以被标记操作符融合，例如，在 VisualBERT[109] 和 Unicoder-VL[113] 中，段嵌入被标记添加，以表示每个标记来自哪个模式（视觉或语言），VLBERT[110]通过“语言标记嵌入⊕全图像视觉特征嵌入”将全局视觉上下文注入到语言域，BERT[110]通过“语言标记嵌入⊕全图像视觉特征嵌入”，将全局视觉上下文注入语言领域，InterBERT[190]通过“ROI嵌入⊕位置嵌入”为ROI添加位置信息，在ImageBERT[120]中，融合了五种嵌入“图像嵌入⊕位置嵌入⊕语言嵌入⊕片段嵌入⊕序列位置嵌入”。

3.3.2 Self-Attention Variants in Multimodal Context

在多模态变压器中，跨模态交互作用（例如，融合、对齐）本质上是由自我注意和其变体处理的，因此，在本节中，我们将从自我注意设计的角度来回顾变压器的主要多模态建模实践，包括（1）早期求和（标记级的、加权），（2）早期联合（3）层次注意（多流到一流）、（4）层次注意（单流到多流）、（5）交叉注意和（6）交叉注意到连接。见图4。

为了简洁起见，我们将陈述和比较双模式情况下的数学公式。请注意，所有讨论过的自我注意及其变体都是如此灵活的，可以扩展到多种模态的情况下。具体来说，下面的公式是模态、标记化和嵌入不可知的，作为自注意模型，从任意模态嵌入任意标记作为图的节点。

给定来自两种任意模式的输入 $X_A$ 和 $X_B$ ， $Z_{(A)}$ 和 $Z_{(B)}$ 表示它们各自的标记嵌入。设Z表示由多模态交互产生的标记嵌入（序列）, $T f (\cdot)$ 代表变压器层/块的处理。

(1) Early Summation
在实践中，早期求和[45]，[89]是一种简单而有效的多模态交互，其中来自多种模态的标记嵌入可以在每个标记位置进行加权求和，然后由变压器层处理： $\mathbf{Z} \leftarrow T f\left(\alpha \mathbf{Z}_{(\mathrm{A})} \oplus \beta \mathbf{Z}_{(\mathrm{B})}\right)=M H S A\left(\mathbf{Q}_{(\mathrm{AB})}, \mathbf{K}_{(\mathrm{AB})}, \mathbf{V}_{(\mathrm{AB})}\right)\tag{8}$ 具体来说 $\mathbf{Q}_{\text {(АВ })}=\left(\alpha \mathbf{Z}_{(\mathrm{A})} \oplus \beta \mathbf{Z}_{\text {(В) }}\right) \mathbf{W}_{\text {(АВ })}^{Q},\mathbf{K}_{\text {(АВ })}=\left(\alpha \mathbf{Z}_{(\mathrm{A})} \oplus \beta \mathbf{Z}_{\text {(В) }}\right) \mathbf{W}_{\text {(АВ })}^{K}, \mathbf{V}_{\text {(АВ })}=\left(\alpha \mathbf{Z}_{(\mathrm{A})} \oplus \beta \mathbf{Z}_{\text {(В) }}\right) \mathbf{W}_{\text {(АВ })}^{V}$ ，它的主要优点是它不会增加计算的复杂度。然而，它的主要缺点是由于手动设置的权重。如第3.1.1节和第3.3.1节所述，求和位置嵌入在本质上是早期求和的一种情况。

(2) Early Concatenation
另一个简单的解决方案是早期连接[7]，[43]，[180]，[182]，即将来自多个模式的令牌嵌入序列连接起来并输入到变压器层中 $\mathbf{Z} \leftarrow T f\left(\mathcal{C}\left(\mathbf{Z}_{(\mathrm{A})}, \mathbf{Z}_{(\mathrm{B})}\right)\right)\tag{9}$ 因此，所有的多模态令牌位置都可以作为一个完整的序列来关注，这样每个模态的位置就可以通过调节其他模态的上下文来很好地编码。VideoBERT[7]是第一个多模态变压器工作，其中视频和文本融合通过早期连接，可以编码全局多模态上下文[190]。然而，串联后较长的序列会增加计算复杂度。早期的连接也被称为“全注意力”或“协变压器”[144].

(3) Hierarchical Attention (multi-stream to one-stream)
变压器层可以分层组合，以处理跨模态交互。一种常见的做法是，多模态输入由独立的变压器流编码，它们的输出由另一个变压器[153]连接和融合： $\mathbf{Z} \leftarrow T f_{3}\left(\mathcal{C}\left(T f_{1}\left(\mathbf{Z}_{(\mathrm{A})}\right), T f_{2}\left(\mathbf{Z}_{(\mathrm{B})}\right)\right)\right)\tag{10}$ 这种层次化注意力是一种晚期交互/融合的实现，可以被视为早期连接的一种特殊情况。

(4) Hierarchical Attention (one-stream to multi-stream)
InterBERT[190]是另一种分层注意的良好做法，其中连接的多模态输入由一个共享的单流变压器编码，然后是两个单独的变压器流。这个流可以表述为 $\left\{\begin{aligned} \mathbf{Z}_{(\mathrm{A})}, \mathbf{Z}_{(\mathrm{B})} &\left.\leftarrow T f_{1}\left(\mathcal{C} \mathbf{Z}_{(\mathrm{A})}, \mathbf{Z}_{(\mathrm{B})}\right)\right) \\ \mathbf{Z}_{(\mathrm{A})} & \leftarrow T f_{2}\left(\mathbf{Z}_{(\mathrm{A})}\right) \\ \mathbf{Z}_{(\mathrm{B})} & \leftarrow T f_{3}\left(\mathbf{Z}_{(\mathrm{B})}\right) \end{aligned}\right.\tag{11}$ 该方法感知了跨模态交互，同时保持了单模态表示的独立性。

(5) Cross-Attention
对于双流变压器，如果Q（查询）嵌入以跨流的方式进行交换/交换，那么也可以感知到跨模态的交互。这种方法被称为交叉注意或共注意[193]，首次在VilBERT[107]中提出： $\left\{\begin{array}{l} \mathbf{Z}_{(\mathrm{A})} \leftarrow M H S A\left(\mathbf{Q}_{\mathrm{B}}, \mathbf{K}_{\mathrm{A}}, \mathbf{V}_{\mathrm{A}}\right), \\ \mathbf{Z}_{(\mathrm{B})} \leftarrow M H S A\left(\mathbf{Q}_{\mathrm{A}}, \mathbf{K}_{\mathrm{B}}, \mathbf{V}_{\mathrm{B}}\right) \end{array}\right.\tag{12}$ 交叉注意关注另一种模态，不会导致较高的计算复杂度，但如果考虑每个模态，该方法不能全局执行跨模态注意，从而失去整个上下文。正如在[190]中所讨论的，双流交叉注意可以学习跨模态交互，而在每个模态中没有对自我环境的自我注意。

(6) Cross-Attention to Concatenation
这两个交叉注意的[107]流可以被另一个变压器进一步连接和处理，以建模全局上下文。这种层次交叉模态交互作用也在[144]、[192]中得到了广泛的研究，减轻了交叉注意的缺点。

Discussion
所有上述的多模态交互的自注意变体都是模态通用的，可以应用于灵活的策略和多颗粒任务。具体来说，这些交互作用可以灵活地组合和嵌套。例如，在等式的双流解耦模型[194] $Tf_2$ 和 $Tf_3$ 中，将多个交叉注意流用于层次注意（单流到多流）11个是由等式中定义的交叉注意来实现的 12.此外，它们还可以扩展到多种（≥3）模式。TriBERT[185]是一种用于视觉、姿态和音频的三模态交叉注意（共注意），其中给定一个查询嵌入，它的键和值嵌入是来自其他模态的连接。对连接的交叉注意应用于[192]中的三种模式（即语言、视频和音频）。

3.3.3 Network Architectures

从本质上说，各种多模态变压器的工作是由于它们内部的多模态注意是上述的自我注意变体。同时，如图4所示，这些注意事项决定了它们所嵌入的多模态变压器的外部网络结构。

一般来说，如果我们从网络结构的角度，考虑单流中的（1）早期求和和早期连接工作，多流中的（2）交叉注意工作，混合流中的（3）分层注意和交叉注意连接工作。因此，多模态变压器可以分为单流(如，统一[111]，可视化[109]，Vl-bert[110]，统一VLP[115])，多流(如，ViLBERT[107]，Lxmert[108]，ActBERT[119])，混合流(如，InterBERT[190])等。

从互动时间的角度来看，这些多模态注意可分为三类，即早期互动：早期总和、早期连接和层次注意（一流到多流），晚期交互：层次注意（多流到单流），或整个互动：交叉注意、对连接的交叉注意。

如[195]中的图2所示，多模态变压器模型基于组件的计算大小有另一种体系结构分类。

4 THE APPLICATION PERSPECTIVE

在本节中，我们将从应用程序的角度来研究多模态变压器。我们考虑了两个重要的范例：
（1）用于多模态预训练的变压器（第4.1节，包括任务无关（第4.1.1节）和特定任务（第4.1.2节）的多模态预训练），
（2）用于特定多模态任务的变压器（第4.2节）。

4.1 Transformers for Multimodal Pretraining

受基于变压器的预训练在NLP社区取得巨大成功的启发，随着各种大规模多模态语料库的出现，变压器也在多模态预训练中得到了广泛的研究。最近的研究表明，如果在基于大规模多模态语料库转换的模型上进行[7]、[107]、[108]、[109]、[110]、[111]、[115]，在广泛的多模态下游任务中明显优于其他竞争对手，而且实现了零镜头泛化能力。这些优势使得基于变压器的多模态预训练成为一个热门话题，它主要有两个方向，即针对不可知的下游任务的一般预训练（第4.1.1节），针对特定下游任务的面向目标导向的预训练（第4.1.2节）。

我们关注以下这些关键点：（1）正在出现什么趋势？（2）在训练前，跨模态互动在哪里/如何发生？（3）如何整理和理解预训练的伪目标？他们如何驱动变压器来学习跨模态的交互作用？

4.1.1 Task-Agnostic Multimodal Pretraining 任务不可知的多模式预训练

近年来，面向变压器的预训练已被广泛研究，包括不同的形态组合，如视频-文本[7]、[112]、[122]、图像-文本[107]、[108]、[109]、[196]、声学-文本[182]。
在现有的工作中，正在出现以下主要趋势：
（1）视觉语言预训练(VLP)是这一领域的一个主要研究问题，包括图像图像+语言和视频+语言，也被称为视觉语言预训练。有人提出了大量优秀的工作，e.g. VideoBERT [7], ViLBERT [107], LXMERT [108], VisualBERT [109], VL-BERT [110], UNITER [111], CBT [112], Unicoder-VL [113], B2T2 [114], VLP [115], 12-in-1 [116], Oscar [117], Pixel-BERT [118], ActBERT [119], ImageBERT [120], HERO [121], UniVL [122], SemVLP [197].
（2）由于自动语音识别(ASR)技术的最新进展，在多模态环境下，语音可以通过现成的语音识别工具转换为文本。例如，VideoBERT[7]和CBT[112]通过提取高级语义文本，充分利用语音而不是低级声音作为跨模态监督的来源。
（3）大多数基于变压器的多模态预训练都以自我监督的方式工作，然而，它过度依赖于对齐良好的多模态样本对/元组。例如，大量的图像语言预训练变压器模型是在大规模的图像-文本对上进行预训练的，例如，VisualBERT[109]，VL-BERT[110]，ViLBERT[107]，LXMERT[108]，uniter[111]。另一个例子，教学视频（如烹饪）被广泛用作训练前的语料库，例如HowToVQA69M[147]，HowTo100M[148]，一般来说，它们的视觉线索/内容和口语单词如果与其他视频相比有更高的概率彼此对齐。然而，使用跨模态对齐作为跨模态监督对于大规模的应用程序是昂贵的。因此，如何使用弱对齐甚至未配对/非对齐的多模态数据作为预训练语料库仍未得到充分的研究。对于最近的一些尝试，[144]，[198]研究了使用弱对齐的跨模态监督来训练变压器来学习跨模态的相互作用。此外，大多数现有的借口任务在不同模式下得很好。例如，蒙面语言建模(MLM)在文本领域应用于音频和图像，例如，蒙面声建模[182]，[199]，蒙面图像区域预测[193]，而句子排序建模(SOM)[200]文本域和帧排序建模（形式）[121]视频域共享相同的想法。下面，我们将进一步讨论多模态变压器预训练的借口任务。
（4）本质上，在多模态预训练场景中，变压器模型基于第3.3.2节中讨论的那些自我注意变量进行工作。因此，如果从模型结构的角度来看，现有的多模态预训练变压器也主要分为三类，即单流、多流、混合流。
（5）对于基于变压器的多模态预训练，关键是驱动变压器(编码器w/，w/o解码器)来学习跨模态交互。在现有的基于转换的多模态预训练实践中，跨模态交互是灵活的，可以在预训练管道中的各个组件/级别中执行。一般来说，基于变压器的多模态预训练管道有三个关键组件，从下到上，即令牌化、变压器表示、客观监督。不仅对于多模态预训练，而且对于特定的多模态任务，跨模态交互可以在三个组件中的任意组件(s)内执行。正如第3.3.2节所讨论的，由于自注意模型将任意模态嵌入任意标记作为图的节点，现有的预训练管道通常可以跨模态独立传输，除非考虑到特定模态的目标。

你可能感兴趣的:(transformer,深度学习,人工智能)

对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
警惕!北恒私募高级班周一丰，马建军不正规。不让出金,不能提现,大家远离骗局! 昌龙律法
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，若你也不幸被骗遇到此类平
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
走进区块城市，开启你的元宇宙之旅！口碑信息传播者
随着科技的飞速发展，虚拟现实、区块链、人工智能等前沿技术逐渐融入我们的生活。在这个大背景下，元宇宙概念应运而生，成为全球关注的焦点。本文将带领读者走进区块城市，一探元宇宙的究竟，感受这个未来世界的魅力。探索未来，触碰无限可能！国内区块链元宇宙正引领一场前所未有的科技革命，现在正是您加入这场盛宴的最佳时机！在这里，您将亲身体验到一个全新的虚拟世界，感受与现实世界无缝对接的震撼体验。加入国内区块链元宇
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
「Tokens是胡扯」？Mamba作者炮轰Transformer，揭秘AI模型致命缺陷 | AI早报未来世界2099 AI日报人工智能 transformer 深度学习业界资讯
1、OpenAI疯狂挖角反击！Meta华人科学家+马斯克三员大将集体跳槽2、清华&NTU突破性研究：仅需2张图，AI即可重构3D空间认知3、极智嘉港股上市首日破发！清华系机器人公司市值153亿引关注4、星海图融资超1亿美金！美团、今日资本领投，估值暴涨3倍5、华人团队用RL打造AIAgent，种子轮狂揽1200万美元融资6、Skywork-R1V3.0震撼开源：高考数学142分，多学科推理能力直逼
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后