迷途老书虫

多模态梳理

一、多模态学习基本概念

1 背景

人们听到的声音、看到的实物、闻到的味道都是一种模态，人们生活在一个多种模态相互交融的环境中。为了使人工智能更好地理解世界，必须赋予人工智能学习、理解和推理多模态信息的能力。多模态学习指建立模型使机器从多模态中学习各个模态的信息，并且实现各个模态的信息的交流和转换。

多模态感知融合是自动驾驶的基础任务，吸引了众多关注。但是，由于原始数据噪声大、信息利用率低以及多模态传感器未对齐等这些原因，要想实现一个好的性能也并非易事。

在复杂的驾驶环境中，单一的传感器信息不足以有效的处理场景的变化。比如在极端恶劣天气中（大暴雨、沙尘暴）能见度较低的情况下，此时只依靠camera的所反馈的RGB图像完全没有办法对环境的变化做出反馈。而在普通的道路环境中，如红绿灯、色锥等，只依靠Lidar的信息也是无法进行有效识别的，也需要结合camera所带来的RGB信息，才能有效的处理。因此，在自动驾驶感知场景的任务中，不同模态信息的互补会更加的重要。

2 模态

模态是指一些表达或感知事物的方式，语音语言等属于天然的、初始的模态，情绪等属于抽象的模态。对每一种信息的来源或者形式，都可以称为一种模态（Modality）。

3 多模态

多模态是从多个模态表达或感知事物。多个模态也可归类为同质性的模态，例如从两台相机中分别拍摄的图片，异质性的模态，即图片与文本语言的关系。目前研究领域中主要是对图像，文本，语音三种模态的处理。之所以要对模态进行融合，是因为不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉（所以存在信息冗余），互补（所以比单特征更优秀）的现象，甚至模态间可能还存在多种不同的信息交互，如果能合理的处理多模态信息，就能得到丰富特征信息。即概括来说多模态的显著特点是：余度性和互补性 。

多模态融合重点关注深度学习模型中融合特征的阶段，无论是数据级、特征级还是建议级。

4 多模态机器学习

多模态学习(Multimodal Machine Learning, MML)：是从多种模态的数据中学习并且提升自身的算法。

5 案例

案例1：人感知外部世界，可以从多种信号中感知环境（注意力/记忆力、声音、味道、触觉、视觉、气味）
视觉2：人和人进行交流

文本：单词、句法、语用学
声音：韵律、声调、笑声语气
视觉：手势姿态、肢体语言、眼神交流、面部情绪

二、多模态机器学习的核心技术挑战

多模态深度学习在不同的多模态组合和学习目标下，主要包含四项关键技术。具体如下。

1 多模态表示学习

多模态表示学习（Multimodal Representation）：对不同模态数据提取特征，学习跨模态数据的信息交互，以及多模态数据的共同表示。该问题可以分为两个子问题：
（1）联合表示（Joint Representation）：已有模态数＞特征表示（需要解决的问题数目），联合表示将多个模态的信息一起映射到一个统一的多模态向量空间。多模态数据共同为同一任务合作和融合，例如使用文字、语音、视频共同识别情感。
（2）协作（协同）（Coordination Representation）：模态数=特征表示，两种数据在两种任务之间协作。协同表示负责将多模态中的每个模态分别映射到各自的表示空间，但映射后的向量之间满足一定的相关性约束（例如线性相关）。

2 多模态转化

模态转化 Translation/映射 Mapping:转化也称为映射，负责将一个模态的信息转换为另一个模态的信息。常见的应用包括：
（1）机器翻译（Machine Translation）：将输入的语言A（即时）翻译为另一种语言B。类似的还有唇读（Lip Reading）和语音翻译（Speech Translation），分别将唇部视觉和语音信息转换为文本信息。
（2）图片描述（Image captioning) 或者视频描述（Video captioning)：对给定的图片/视频形成一段文字描述，以表达图片/视频的内容。
（3）语音合成（Speech Synthesis）：根据输入的文本信息，自动合成一段语音信号。

3 多模态对齐

模态对齐 Alignment：负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。
（1）对应关系可以是时间维度的。如，将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。
（2）对齐又可以是空间维度的，比如图片语义分割（Image Semantic Segmentation），尝试将图片的每个像素对应到某一种类型标签，实现视觉-词汇对齐。

4 多模态融合

多模态融合 Multimodal Fusion：负责联合多个模态的信息，进行目标预测（分类或者回归），属于 MMML 最早的研究方向之一，也是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合（Multi-source Information Fusion）、多传感器融合（Multi-sensor Fusion)。按照融合的层次，可以将多模态融合分为：
- pixel level:应对原始数据进行融合。
- feature level :对抽象的特征进行融合
  - early:表示融合发生特征抽取的早期
  - late fusion:表示融合发生特征抽取的晚期
- decision level:对决策结果进行融合
- hybrid:混合融合多种融合方法

5 协同学习

协同学习 Co-learning：协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。

迁移学习（Transfer Learning）如初学者尝试将 ImageNet 数据集上学习到的权重，在自己的目标数据集上进行微调。迁移学习和协同训练（Co-training）。
迁移学习比较常探讨的方面目前集中在领域适应性（Domain Adaptation）问题上，即如何将train domain上学习到的模型应用到 application domain。
迁移学习中还有零样本学习（Zero-Shot Learning）和一样本学习（One-Shot Learning）

协同训练（Co-training ），它负责研究如何在多模态数据中将少量的标注进行扩充，得到更多的标注信息。

三、常见多模态任务

1. 跨模态预训练

图像/视频与语言预训练
跨任务预训练

2. Language-Audio

Text-to-Speech Synthesis: 给定文本，生成一段对应的声音。
Audio Captioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)

3. Vision-Audio

Audio-Visual Speech Recognition(视听语音识别)：给定某人的视频及语音进行语音识别。
Video Sound Separation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。
Image Generation from Audio: 给定声音，生成与其相关的图像。
Speech-conditioned Face generation：给定一段话，生成说话人的视频。
Audio-Driven 3D Facial Animation：给定一段话与3D人脸模版，生成说话的人脸3D动画。

4. Vision-Language

Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<–>文本的相互检索。
Image/Video Captioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。
Visual Question Answering(视觉问答)：给定一个图像/视频与一个问题，预测答案。
Image/Video Generation from Text：给定文本，生成相应的图像或视频。
Multimodal Machine Translation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。
Vision-and-Language Navigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。
Multimodal Dialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。

5. 定位相关的任务

Visual Grounding：给定一个图像与一段文本，定位到文本所描述的物体。
Temporal Language Localization: 给定一个视频即一段文本，定位到文本所描述的动作(预测起止时间)。
Video Summarization from text query：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。
Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频，分割得到query所指示的物体。
Video-Language Inference: 给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。
Object Tracking from Natural Language Query: 给定一段视频和一些文本，进行定位匹配。
Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。

6. 更多模态

Affect Computing (情感计算)：使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别
Medical Image：不同医疗图像模态如CT、MRI、PET
RGB-D模态：RGB图与深度图（感兴趣）
RGB-T模态：RGB图与热红外图（感兴趣)
RGB-L模态：RGB图与LIDAR （感兴趣）

四、单模态特征表示

模态表示是多模态深度学习的基础，可以分为单模态表示和多模态表示。
单模态表示是指对单个模态信息进行线性或者非线性映射，产生单个模态信息的高阶语义特征表示。
多模态表示基于单模态表示，并对单模态表示的结果进行约束。

1. 文本模态的表示

（1）文本模态的独热表示

矩阵 $X=[x_1,x_2,......,x_n]^T$ 表示一个句子，其中 $x_i$ 是第i个单词的独热表示向量。 $x_i$ 是一个维度等于词典包含的单词个数且元素取值为0，1的向量，且只有一个元素值为1，其余都为0。值为1的元素在向量中的位置与 $x_i$ 所表示的单词在词典中的位置坐标相同。

（2）文本模态的低维空间表示

分布性假设指一个单词或字包含的信息被其上下文中的单词确定, 而不是由单词或字本身决定, 例如北京、东京等首都城市名称上下文中的单词相似程度较高, 这类单词或字的语义信息就相近。
用 $x^{'} = x W$ 线性方程创建一个语义空间，其中 $x$ 为一个单词或字的独热表示向量， $W$ 为一个在神经网络模型上学习得到的转换矩阵， $x^{'}$ 是该单词或字在语义空间中的向量, 在语义空间中, 包含的信息相近的单词或字的表示向量距离较近。

（3）文本序列模态的词袋表示

单词序列指长度不定的, 单词顺序明确的单词串, 包括短语、句子、段落和文档。假定 $x$ 表示一个单词序列, $x$ 是一个维度等于词典包含的单词个数，且元素取值为 0,1 的向量, 值为1的元素在向量中的位置与单词序列中包含的所有单词在词典中的位置相同, 其余元素为 0 。
词袋表示忽略了词语在单词序列中的先后顺序, 考虑词语顺序后, 词袋模型衍生出句子 n-grams 词袋模型。词袋表示和 n-grams 词袋表示的语言模型常能获得较准确的结果, 但是都没有考虑单词的语义信息。

（4）文本序列模态的低维空间表示

指获取文本序列模态的语义表示，即将文本序列映射到语义空间中。在早期的获取单词序列模态的语义表示的探索中，最简单的方法就是加权平均单词序列中各单词的语义表示向量，还有一种较复杂的方法是按照句子解析树的单词顺序，将句子组织为矩阵。这两种方法都有各自的缺点，前者在加权平均的过程中忽略了单词先后顺序, 后者的核心是句子的解析, 其适用对象局限于句子。
为解决这些不足, 研究人员提出了递归神经网络，由于递归神经网络的输入序列长度可变以及当前输出与之前输入有关等特性, 递归神经网络成为句子模态处理中非线性映射的主流模型，而目前主流的表示方法是预训练文本模型例如：BERT。

2. 视觉模态的表示

视觉模态分为图像模态和视频模态，视频模态在时间维度上展开后是一个图像序列。因此，学习视觉模态的向量表示的关键问题是学习图像模态的向量表示。
（1）图像模态的表示
在深度学习中，卷积神经网络是在多层神经网络的基础上发展起来针对图像而特别设计的一种深度学习方法。
经典的卷积神经网络如 LeNet-5、AlexNet、 VGG、GoogLeNet、ResNet和CapsNet，将卷积神经网络的卷积和池化操作理解为产生图像模态矩阵表示的过程，将全连接层或全局均值池化层的输入理解为图像模态的向量表示。
LeNet-5
- 能以极高的精度实现手写体数字和字母的识别，且应用于信封邮编识别和车牌识别中.
- LeNet-5 的输入为包含数字或字母的灰度图像，经过卷积和池化后产生特征图像，即图像模态的矩阵表示，特征图像经过维度变化后获得全连接层的输入，即图像模态的向量表示。
AlexNet
- 通过更多的卷积和池化操作以及归一化处理和 dropout 等训练方法，在网络深层的卷积层和池化层获得图像的矩阵表示，即通过增加网络深度获取了包含图像深度语义信息的特征表示。
VGG
- 与 AlexNet 增加神经网络深度的方式不同，VGG通过构建含有多个卷积子层的卷积层实现网络深度的拓展，它每层都有 2~4 个卷积子层，用较小的卷积核和多个卷积层实现了对图片特征的精细抓取。
- VGG 的结构使得其能深度提取图像中的精细的语义特征，获得更好的图像模态表示。为获得更好的图像模态表示，研究者不断地尝试增加网络的深度，但是发现当网络深度增加到一定程度后网络性能逐渐变差，获得的图像模态表示反而不能更好地提取图像模态信息。
ResNet
- 是在增加网络深度的研究方向上进行了突破性探索的深度卷积网络，由融合了恒等映射和残差映射的构造性模块堆栈后构成。
- 当在网络已经到达最优情况下继续向深层网络运算时，构造性模块中的残差映射将被置 0，只剩下恒等映射，这样使网络在更深的网络层上也处于最优。
NIN
- 提出了卷积层的改进算法 Mlpconv 层，Mlpconv 层在每个感受野中进行更加复杂的运算，获得高度非线性的图像的矩阵表示，并且 NIN 还使用全局均值池化代替全连接层，产生图像的向量表示，并提高网络的泛化能力。
GoogLeNet
- GoogLeNet提出 Inception 模块。Inception 模块具有高效表达特征的能力，它包含 1x1、3x3、5x5 三种尺寸的卷积核，以及一个 3x3 的下采样，不同尺寸的卷积核赋给 Inception 模块提取不同尺寸的特征的能力。Inception 模块从纵向和横向上，增加了卷积层的深度，使得 GoogLeNet 能够产生更抽象的图像模态的矩阵表示。
CapsNet
- 尽管卷积神经网络提取的特征表示已经能够很好地包含图像中的语义信息，但是它并没有包含图像中实例的方向和空间信息，并且池化层必然会损失一些有效信息。
- CapsNet 是卷积神经网络的一种拓展，它的基本组成单元是 capsule。capsule是一组神经元，其输入和输出都是向量形式，向量中的每个元素都是图像中某个实体特征的参数表示，并且相邻的两个 capsule 层通过动态路由算法相连，实现参数选择。因此, CapsNet能够在每个 capsule 层上产生包含图像中实例的方向和空间信息的向量表示，并且使用动态路由算法代替池化层，避免了有效信息的损失。

（2）视频模态的表示

视频为在时间维度上的图像序列，它自然地拥有空间属性和时间属性。
- 空间属性指图像序列中每个图像包含的信息
- 时间属性指图像序列中相邻图像的相互作用信息
- 视频模态的表示应该包含视频的空间和时间两个属性信息
视频的空间属性主要由卷积神经网络提取，时间属性由卷积神经网络或长短记忆神经网络对视频中邻近的图像帧包含的运动信息提取。
视频模态的表示分成单通道卷积神经网络、双通道卷积神经网络和混合神经网络三种。下图分别表示单通道卷积神经网络和双通道卷积神经网络的结构。
单通道卷积神经网络
- 处理对象为视频中一段连续的图像帧，它用一个卷积神经网络完成这段连续的图像中的时间和空间信息融合，并在卷积神经网络的全连接层前产生这段连续的图像帧的向量表示。
- 单通道卷积神经网络提取视频的时空属性常有两种方式：
  a) 改变卷积神经网络的结构，在其输入端或输出端融合视频的时间属性和空间属性。
  b) 采用3D 卷积核，使用卷积计算融合视频的时间属性和空间属性。
双通道卷积神经网络
- 处理对象也是视频中一段连续的图像帧，它用两个卷积神经网络分别学习这段连续的图像帧中的时间属性和空间属性，并在两个网络的全连接层前产生这段连续的图像帧的时间属性表示和空间属性表示。
- 双通道卷积神经网络的输入包含图像帧输入和运动图像输入，图像帧输入为这段连续的图像帧中的一个图像，其包含这段图像帧中的空间信息，运动图像输入为这段连续的图像帧通过光学等技术处理产生后的向量图，如光流位移场叠加等，其包含了这段图像帧中的时间信息。
混合神经网络
- 由于 LSTM 神经网络对时间序列拟合的优秀性能，研究者将 LSTM 引入到上述两种网络结构中，构造混合神经网络。混合神经网络的基本思想是将卷积神经网络的输出作为 LSTM 神经网络的输入，将视频中的图像帧或运动图像按照时间顺序依次输入卷积神经网络，卷积神经网络在每个时刻都会产生输入的图像帧或运动图像的向量表示；同时 LSTM会读取每个时刻的图像帧或运动图像的向量表示并产生一个隐变量，该隐变量随着时间更新。

3. 声音模态的表示

与其他信号一样，声音模态的表示就是提取声音信号的语义特征向量。在当前的包含神经网络结构的声音处理模型中，声音模态的表示主要包含两个过程：
- 声音模拟信号转换为声音数字信号并完成特征向量的提取；
- 提取特征向量的高阶表示。

声音特征向量的提取

声音是模拟信号，声音的时域波形只代表声压随时间变化的关系，不能很好地体现声音的特征。因此，在声音特征提取时，首先应将采集到的语音信号数字化，转换为便于计算机存储和处理的离散的数字信号序列；然后利用数字信号处理技术对离散的数字信号序列进行声学特征向量的提取。当前的声音信号的处理技术主要有傅里叶变换、线性预测以及倒谱分析等。

声音特征向量的提取

提取特征向量的高阶表示在用神经网络识别声音时，提取特征向量的高阶表示是指使用神经网络对提取的声音特征向量进行多级非线性映射，学习特征向量中包含的不同抽象层次的信息。

4. 深度图模态的表示

在3D计算机图形中，Depth Map（深度图）是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中，Depth Map 类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的，因而像素点之间具有一对一的对应关系。

5. 热红外模态的表示

Cross-Modality Image Matching Network With Modality-Invariant Feature Representation for Airborne-Ground Thermal Infrared and Visible Datasets
关于红外行人重识别的模型方案
- [2020 AAAI] Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification
- [2020 arxiv] Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification
- [2020 CVPR] Hi-CMD Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification
- [2020 arxiv] RGB-IR Cross-modality Person ReID based on Teacher-Student GAN Model
- [2020 IJCAI] A Similarity Inference Metric for RGB-Infrared Cross-Modality Person Re-identification

（待完善）

6. 多光谱模态的表示

（待完善）

7. LIDAR模态的表示

（待完善）

五、多模态特征表示（Multimodal Representation）

表征学习是多模态任务的基础，特征表示主要任务是学习如何更好的提取和表示多模态数据的特征信息，以利用多模态数据的互补性。其中包含了一些开放性问题，例如：
- 如何结合来源不同的异质数据，
- 如何处理不同模态的不同噪声等级，
- 测试样本的某种模态缺失怎么办。
Joint 注重不做多模态的互补性，融合多个输入模态 $x_1,x_2$ 获得多模态表征 $x_m=f(x_1,x_2,...,x_n)$ ，从而使用 $x_m$ 完成某种预测任务。网络优化目标是某种预测任务的性能。
Coordinated结构并不寻求融合而是建模多重模态数据间的相关性，他讲多个（通常为两个）模态映射到协作空间，表示为 $f(x_1)~g(x_2)$ ,其中~表示一种协作关系。网络优化目标是这种协作关系（通常是相似性，即最小化cosine距离等变量）
Joint Representation和Coordinated Representation区别
（1）联合特征表示将各模态信息映射到相同的特征空间中，而协同特征表示分别映射每个模态的信息，但是要保证映射后的每个模态之间存在一定的约束，使它们进入并行的相互映射的协同空间。（投影到分离但相关的空间）
（2）联合特征表示主要用于在训练和测试阶段都是多模态数据的任务。
（3）协同特征表示是为每个模态学习单独的特征提取模型，通过一个约束来协同不同的模态，更适合于在测试时只有一种模态数据的任务，如:多模态检索和翻译。
（4）协同架构包括跨模态相似模型和典型相关分析，其目的是寻求协调子空间中模态间的关联关系；由于不同模态包含的信息不一样，协同方法有利于保持各单模态独有的特征和排它性：
- 协同架构在跨模态学习中已经得到广泛应用，主流的协同方法是基于交叉模态相似性方法，该方法旨在通过直接测量向量与不同模态的距离来学习一个公共子空间。而基于交叉模态相关性的方法旨在学习一个共享子空间，从而使不同模态表示集的相关性最大化。
- 交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构，期望相同语义或相关对象的跨模态相似距离尽可能小，不同语义的距离尽可能大。
- 与其它框架相比，协同架构的优点是每个单模态都可以独立工作，这一特性有利于跨模式迁移学习，其目的是在不同的模态或领域之间传递知识。缺点是模态融合难度较大，使跨模态学习模型不容易实现，同时模型很难在两种以上的模态之间实现转移学习。

五、跨模态对齐（Multimodal Alignment）

跨模态对齐目的是挖掘多模态数据的子元素之间的关联性（辨别来自两个或两个以上的不同模态元素之间的关系），例如visual grounding（视觉定位）任务。

对齐广泛应用于多模态任务中，根据对齐任务的分类，具体的应用方式包括显式对齐和隐式对齐：

（1）显式对齐
- 显式对齐。如果一个模型的优化目标是最大化多模态数据的子元素的对齐程度，则称为显示对齐。包括无监督和有监督方法。无监督对齐：给定两个模态的数据作为输入，希望模型实现子元素的对齐，但是训练数据没有“对齐结果”的标注，模型需要同时学习相似度度量和对齐方式。而有监督方法存在标注，可训练模型学习相似度度量。Visual grounding便是有监督对齐的任务，而weakly-supervised visual grounding是无监督对齐的任务。
（2）隐式对齐
- 隐式对齐。如果模型的最终优化目标不是对齐任务，对齐过程仅仅是某个中间(或隐式)步骤，则称为隐式对齐。早期基于概率图模型(如HMM)的方法被应用于文本翻译和音素识别中，通过对齐源语言和目的语言的单词或声音信号与音素。但是他们都需要手动构建模态间的映射。最受欢迎的方式是基于注意力机制的对齐，我们对两种模态的子元素间求取注意力权重矩阵，可视为隐式地衡量跨模态子元素间的关联程度。在图像描述，这种注意力被用来判断生成某个单词时需要关注图像中的哪些区域。在视觉问答中，注意力权重被用来定位问题所指的图像区域。很多基于深度学习的跨模态任务都可以找到跨模态注意力的影子。
根据对齐的方法，将模态对齐分为：注意力对齐和语义对齐。

（1）注意力对齐

注意力对齐，对于机器翻译、图像标注、语音识别等模态传译的任务上应用较多，因为模态传译的过程中存在模态元素之间的转换，转换结果的对齐要通过对齐算法，尤其是注意力对齐算法。分为软注意力，硬注意力。

以机器翻译为例，如上图所示，这是软注意力模型，这种注意力利用解码器——即双向RNN提取单词的上下文语义特征表示，后通过解码器——即RNN将上次预测的单词与注意力加权下的单词特征表示输入预测这次单词（最大后验概率）完成对齐。

（2）语义对齐

语义对齐最主要的实现方式就是处理带有标签的数据集并产生语义对齐数据集，用深度学习模型去学习语义对齐数据集中的语义对齐信息。

3 讨论

讨论：对齐可以作为一个单独的任务，也可以作为其他任务的隐式特征增强手段。多模态对齐可挖掘子元素间的细粒度交互，同时有可解释性，被广泛应用。但多模态对齐面临如下挑战：仅有少量数据集包含显式的对齐标注；跨模态度量难以设计；可能存在多种对齐，也可能存在某些元素无法在其他模态中找到。

六、多模态融合

1 前言

多模态融合的主要目标是缩小模态间的异质性差异，同时保持各模态特定语义的完整性，并在深度学习模型中取得最优的性能。
多模态融合离不开数据表达形式，图像分支的数据表示较简单，一般均指RGB格式或灰度图，但激光雷达分支对数据格式的依赖度较高，不同的数据格式衍生出完全不同的下游模型设计，总结来说包含三个大方向：基于点、基于体素和基于二维映射的点云表示。

2 多模态融合架构（神经网络模型的基本结构形式）

多模态融合架构分为三类联合（Joint）架构、协作（Coordinated）架构和编解码（Encode-Decode）架构。
三种融合架构在视频分类、情感分析、语音识别等许多领域得到广泛应用，且涉及图像、视频、语音、文本等融合内容，具体应用情况如下表所示。

联合架构

多模态联合架构的关键是实现特征“联合”，具体有“加”联合和“乘”联合。
-“加”联合方法：属于最简单的方法是直接连接，该方法在不同的隐藏层实现共享语义子空间，将转换后的各个单模态特征向量语义组合在一起，从而实现多模态融合，如公式：
$f(w^T_1v_1+...+(w^T_nv_n)$
上式中，z是共享语义子空间中的输出结果，v是各单模态的输入，w是权重，下标表示不同的模态，通过映射f将所有支模太语义转换到共享子空间。
“乘”联合方法：将语言、视频和音频等模态融合在统一的张量中，而张量是所有单模态特征向量的输出乘积构成的，如下公式所示：
$z=\begin{bmatrix} v^1\\ 1 \end{bmatrix} \otimes ...\otimes \begin{bmatrix} v^n\\ 1 \end{bmatrix}$
其中，z表示融合张量后的结果输出，v表示不同的模态， $\otimes$ 表示外积算子。
尽管加联合简单且容易实现，但是其特征向量语义组合易造成后期语义丢失，使模型性能降低。而“乘”联合方法弥补了这一不足，通过张量计算使特征语义得到更“充分”融合，最常见的方法是深度神经网络，如的多模态情感预测模型由包括许多内部乘积的连续神经层组成，充分利用深度神经网络的多层性质，将不同模态有序安排在不同层中，并在模型训练过程中动态实现向量语义组合。
多模态联合框架的优点是融合方式简单，且共享子空间往往具备语义不变性，有助于在机器学习模型中将知识从一种模态转移到另一种模态。缺点是各单模态语义完整性不易在早期发现和处理。

协同架构

协同架构包括跨模态相似模型和典型相关分析，其目的是寻求协调子空间中模态间的关联关系；由于不同模态包含的信息不一样，协同方法有利于保持各单模态独有的特征和排它性。
协同架构在跨模态学习中已经得到广泛应用，主流的协同方法是基于交叉模态相似性方法，该方法旨在通过直接测量向量与不同模态的距离来学习一个公共子空间。而基于交叉模态相关性的方法旨在学习一个共享子空间，从而使不同模态表示集的相关性最大化。
交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构，期望相同语义或相关对象的跨模态相似距离尽可能小，不同语义的距离尽可能大。模态间排名方法用于完成视觉和文本融合任务，将视觉和文本的匹配嵌入向量表示为, 融合目标用一个损失函数表示。
与其它框架相比，协同架构的优点是每个单模态都可以独立工作，这一特性有利于跨模式转移学习，其目的是在不同的模态或领域之间传递知识。缺点是模态融合难度较大，使跨模态学习模型不容易实现，同时模型很难在两种以上的模态之间实现转移学习。

编解码架构（自监督）

编解码器架构是用于将一个模态映射到另一个模态的中间表示。编码器将源模态映射到向量 v 中，解码器基于向量 v 将生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。
目前，编解码器架构在研究中重点关注共享语义捕获和多模序列的编解码两个问题。为了更有效地捕获两种模态的共享语义，一种流行的解决方案是通过一些正则化术语保持模态之间的语义一致性。必须确保编码器能正确地检测和编码信息，而解码器将负责推理高级语义和生成语法，以保证源模态中语义的正确理解和目标模态中新样本的生成。为了解决多模序列的编码和解码问题，关键是训练一个灵活的特征选择模块，而训练序列的编码或解码可以看作一个顺序决策问题，因此通常会采用决策能力强的模型和方法解决。例如，深度强化学习(Deep Reinforcement Learning，DRL)是一种常用的多模序列编解工具。
与其它框架相比，编解码器框架的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态。

3 分类方式

分类方式一

多模态数据融合主要可分为三种方式：

前端融合(early-fusion)或数据水平融合(data-level fusion)：通过空间对齐直接融合不同模态的原始传感器数据。

前端融合将多个独立的数据集融合成一个单一的特征向量，然后输入到机器学习分类器中。

由于多模态数据的前端融合往往无法充分利用多个模态数据间的互补性，且前端融合的原始数据通常包含大量的冗余信息。

因此，多模态前端融合方法常常与特征提取方法相结合以剔除冗余信息，如主成分分析（PCA）、最大相关最小冗余算法（mRMR）、自动解码器（Autoencoders）等。

中间融合（深度融合\特征级融合）：指通过级联或者元素相乘在特征空间中融合跨模态数据。

需要将不同的模态数据先转化为高维特征表达，再于模型的中间层进行融合。

以神经网络为例，中间融合首先利用神经网络将原始数据转化成高维特征表达，然后获取不同模态数据在高维空间上的共性。中间融合方法的一大优势是可以灵活的选择融合的位置。

后端融合(late-fusion)或决策水平融合(decision-level fusion)：指将各模态模型的预测结果进行融合，做出最终决策。即将不同模态数据分别训练好的分类器输出打分(决策)进行融合。这样做的好处是，融合模型的错误来自不同的分类器，而来自不同分类器的错误往往互不相关、互不影响，不会造成错误的进一步累加。

常见的后端融合方式包括最大值融合(max-fusion)、平均值融合(averaged-fusion)、贝叶斯规则融合(Bayes’rule based)以及集成学习(ensemble learning)等。

其中集成学习作为后端融合方式的典型代表，被广泛应用于通信、计算机识别、语音识别等研究领域。

分类方式二

也可分为强融合、弱融合，强融合进一步细分为：前融合、深度融合、不对称融合和后融合。

强融合：

前融合案例：

深度融合案例：

后融合案例：

不对称融合案例：

分类方式三

模型无关的方法（Model-agnostic approaches）不依赖具体机器学习方法（可以兼容任何一种分类器或者回归器）
（1）早期融合：提取特征后简单连接，利用低水平特征间的相关性和相互作用，训练容易（特征级的融合，多模态表示的前期尝试）不过无法充分利用多个模态数据间的互补性，且存在信息冗余问题（可由PCA，AE等方法缓解）
（2）晚期融合：针对不同的模态训练不同的模型，然后进行集成，更好地对每种模态数据进行建模（不融合，类似继承学习），模型独立，鲁棒性强。融合的方式即在特征生成过程中（如多层神经网络的中间）进行自由的融合，从而实现更大的灵活性，本质上忽略了模态之间的低水平交互作用，即底层特征之间的关系（推理结果融合）可以较简单地处理数据的异步性。
（3）混合融合：多者结合
基于模型的方法（Model-based approaches）
（1）基于内核的方法（Multiple kernel learning）：SVM的扩展,不同模态不同内核，灵活选择kernel可以更好的融合异构数据，主要优势是MKL的损失函数是凸函数，可以得到全局最优解，模型训练可以使用标准的优化package和全局优化方法，劣势在于测试时对于数据集的依赖推理速度慢，缺点在于测试期间依赖于训练数据(sv)，测试慢内存大。
（2）概率图模型（Graphical models）：生成模型（联合概率）和概率模型（条件概率），耦合和阶乘隐马尔可夫模型以及动态贝叶斯网络，CRF图模型能够很容易的发掘数据中的空间和时序结构，同时可以将专家知识嵌入到模型中，模型也可解释。
（3）神经网络模型（Neural networks）：多模态特征提取部分和多模态融合部分可以进行端到端的训练且能够学习其他方法难以处理的复杂决策边界。神经网络方法的主要缺点就是可解释性差以及需要依赖大量高质量的训练数据。

讨论：多模态融合是依赖于任务和数据的，现有工作中常常是多种融合手段的堆积，并未真正统一的理论支撑。对于这种由任务/数据所导致的融合策略的选择问题，十分适合用Neural Architecture Search高效且自动地搜索。当然，多模态融合仍存在的挑战：
- 不同模态的序列信息可能没有对齐；
- 信号间的关联可能只是补充(仅提高鲁棒性而无法增大信息量)而不是互补；
- 不同数据可能存在不同程度的噪声。

七、多模态模型

（待完善）

八、多模态应用

多模态融合是将来自多种不同模态的信息进行整合，用于分类任务或回归任务。值得注意的是，在最近的工作中，对于像深度神经网络这样的模型，多模态表示和融合之间的界限已经模糊了，其中表示学习与分类或回归目标交织在一起。优点有三，一是对比单模态更加鲁棒，二是模态信息互补，三是其一模态信息缺失仍能运行。

1 视觉-音频识别

视觉-音频识别（Visual-Audio Recognition）：综合源自同一个实例的视频信息和音频信息，进行识别工作。

2 多模态情感分析

多模态情感分析（Multimodal sentiment analysis）：综合利用多个模态的数据（例如下图中的文字、面部表情、声音），通过互补，消除歧义和不确定性，得到更加准确的情感类型判断结果。

3 手机身份认证

手机身份认证（Mobile Identity Authentication）：综合利用手机的多传感器信息，认证手机使用者是否是注册用户。

九、多模态总结

1 多模态融合研究的难点

如何判断每个模态的置信水平
如何判断模态间的相关性
如何对多模态的特征信息进行降维
如何对非同步采集的多模态数据进行配准等

2 融合挑战

不同模态的信息在时间上可能不是完全对齐的，同一时刻有的模态信号密集，有的模态信号稀疏
融合模型很难利用模态之间的互补性
不同模态数据的噪音类型和强度可能不同

3 存在的问题

传感器固有问题：域偏差和分辨率与现实世界的场景和传感器高度相关[26]。这些缺陷阻碍了自动驾驶深度学习模型的大规模训练和实时。
域偏差：在自动驾驶感知场景中，不同传感器提取的原始数据伴随着严重的领域相关特征。不同的摄像头有不同的光学特性，而LiDAR可能会从机械结构到固态结构而有所不同。更重要的是，数据本身会存在域偏差，例如天气、季节或地理位置[6,71]，即使它是由相同的传感器捕获的。这就导致检测模型的泛化性受到影响，无法有效适应新场景。这类缺陷阻碍了大规模数据集的收集和原始训练数据的复用性。因此，未来可以聚焦于寻找一种消除域偏差并自适应集成不同数据源的方法。
分辨率冲突：不同的传感器通常有不同的分辨率。例如，LiDAR的空间密度明显低于图像的空间密度。无论采用哪种投影方式，都会因为找不到对应关系而导致信息损失。这可能会导致模型被一种特定模态的数据所主导，无论是特征向量的分辨率不同还是原始信息的不平衡。因此，未来的工作可以探索一种与不同空间分辨率传感器兼容的新数据表示系统。

4 多模态融合首要解决的问题

如何获取多模态的表示【learn multimodal representations】
如何做各个模态的融合【fuse multimodal signals at various levels】
多模态的应用【multimodal applications】

十、推荐论文

引用：

https://zhuanlan.zhihu.com/p/497058659
https://zhuanlan.zhihu.com/p/389287751
https://zhuanlan.zhihu.com/p/475734302
https://blog.csdn.net/weixin_42455006/article/details/124250910

你可能感兴趣的:(多模态,1024程序员节)

传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
LLM Agent在多模态任务中的推理机制详解
文章目录一、引言二、多模态LLMAgent的基本架构2.1系统组成2.2工作流程图三、多模态表示与对齐3.1跨模态嵌入空间3.2模态对齐技术四、多模态推理策略4.1基于提示的推理(Prompt-basedReasoning)4.2多模态思维链(CoT)推理4.3多模态工具使用五、实现案例：多模态问答系统5.1系统架构5.2示例应用六、高级多模态推理技术6.1多模态递归推理6.2多模态记忆与检索6.
AI Agent 2025 大爆发：从 GPT-4o 到 Devin，下一代 Agent 架构与落地趋势深度解析
当大模型学会“看”“听”“点鼠标”，并且还能叫来一整个“Agent舰队”协同工作，软件开发、运营乃至个人生产力的游戏规则正在被重写。1|为什么Agent在2025重新引爆？模型升级带来实时多模态OpenAIGPT-4o把文本、语音、图像三路感知和毫秒级响应塞进同一模型，实时demo像“科幻电影走出屏幕”OpenAI。浏览器级自动操作新上线的OperatorAgent能在Web页面自主点击、滚动、填
多模态模型在RagFlow中的应用程序猿李巡天 milvus langchain 人工智能大数据 java
在RagFlow的最新版本中（0.19.0）中，为了提升对文档中各类图片的解析效果，也尝试引入了多模态模型（image2text）对图片内容进行增强解析。我们来详细分析一下相关的过程。首先需要在当前租户下配置一个image2text的模型（这里有个坑，后面会讲到），在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型，我们一一来看下：PDF文档内容提取如果配置了imag
多模态模型在RagFlow中的创新应用与实战案例 AGI大模型老王人工智能 DeepSeek 产品经理学习 AI 大模型大模型教学
在RagFlow的最新版本中（0.19.0）中，为了提升对文档中各类图片的解析效果，也尝试引入了多模态模型（image2text）对图片内容进行增强解析。我们来详细分析一下相关的过程。首先需要在当前租户下配置一个image2text的模型（这里有个坑，后面会讲到），在RagFlow的文档解析过程中主要有三个场景使用到这个image2text模型，我们一一来看下：PDF文档内容提取如果配置了imag
占道识别漏检率 30%？陌讯多模态算法实测优化 2501_92487926 算法 ai 计算机视觉视觉检测
开篇：占道经营识别的三大技术痛点在城市管理智能化进程中，占道经营自动识别系统常面临三大核心难题：一是早晚光线剧变导致传统模型mAP骤降15-20%；二是流动摊贩与行人的特征混淆，误判率高达28%；三是密集场景下检测速度跌破15FPS，无法满足实时性要求[1]。某一线城市试点数据显示，基于开源YOLOv5的识别系统日均漏检事件超300起，人工复核成本占总投入的42%。这些问题的根源在于传统算法采用单
SpringBoot3+LangChain4j：构建企业级 AI 办公助手 EyeDropLyq 人工智能 AI编程 AIGC
【Java开发者进阶】SpringBoot3+LangChain4j实战：打造企业级AI办公助手，领跑技术变革！一、核心技术亮点：前沿栈融合，让Java开发拥抱AI时代1.SpringBoot3与LangChain4j的黄金搭档以SpringBoot3.x为后端框架，深度集成专为Java设计的LangChain4j工具，打破“Python垄断AI开发”的固有认知。你将掌握多模态AI能力与Java系
AI情绪识别革命：多模态数据库构建全攻略（2024最新版） AIGC应用创新大全人工智能数据库网络 ai
AI情绪识别革命：多模态数据库构建全攻略（2024最新版）关键词：AI情绪识别、多模态数据库、图像数据、语音数据、文本数据、数据库构建、2024技术摘要：本文全面且详细地介绍2024年AI情绪识别领域中多模态数据库构建的相关知识。从背景引入，讲解多模态数据的核心概念及其关系，阐述核心算法原理与操作步骤，通过项目实战展示实际代码实现，介绍应用场景、工具资源，探讨未来趋势与挑战，并进行总结，同时给出思
AI让我焦虑，可有解药？大虫小呓人工智能 AIGC
被AI相关的信息搞焦虑了？这波以生成式人工智能为核心的生产力变革浪潮，从23年开始短短的两年时间里一浪接一浪的奔涌而来，从ChatGPT、AGI，到多模态大模型、Agent、Cursor，到DeepSeek、Manus，到近期的MCP协议、A2A协议等各种新概念、应用或工具的信息接连不断的往我们的脑子冲进来。就像被连续扇耳光，上一个还没反应过来下一个又来了，被扇得脑袋瓜子嗡嗡的！我发现一个普遍的现
大模型卷积神经网络（CNN）的架构原理 hao_wujing cnn 架构人工智能
大家读完觉得有帮助记得关注和点赞！！！一、卷积神经网络（CNN）的核心原理与架构CNN是一种专为结构化数据（如图像、文本）设计的深度学习模型，其核心在于层次化特征提取与参数高效共享，使其成为大模型中视觉和多模态任务的基础组件。1.核心结构分层解析输入层接收预处理后的数据（如图像去均值、归一化），为后续卷积操作提供标准化输入39。卷积层（核心）局部感知：每个卷积核（如3×3）仅处理输入数据的局部区域
智能防御原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！智能防御系统通过**AI驱动的动态感知、主动决策与自治响应**构建自适应防护体系，其核心在于将被动规则匹配升级为**预测性威胁狩猎**，实现对新型攻击（如AI生成的0day漏洞利用）的有效遏制。以下从原理、架构到技术实现进行体系化拆解：---###⚙️核心防御原理####1.**多模态威胁感知**-**跨域数据融合**：-网络层：DPI深度包检测（如Zeek解析T
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
AIGC与自动驾驶：文心一言的车载交互设计 AI天才研究院 ChatGPT 实战计算 Agentic AI 实战 AIGC 自动驾驶文心一言 ai
AIGC与自动驾驶：文心一言的车载交互设计关键词：AIGC、自动驾驶、车载交互、文心一言、自然语言处理、多模态交互、用户体验摘要：本文深入探讨人工智能生成内容（AIGC）技术在自动驾驶领域的创新应用，特别是百度文心一言如何重构车载交互体验。通过解析文心一言的核心技术架构、多模态融合算法、场景化交互模型，结合具体代码实现和数学模型，揭示其在语音交互、情境理解、个性化服务等场景中的技术优势。同时通过项
【GitHub开源项目实战】LLM-Cookbook 中文大模型工程手册全解析：多场景落地应用与技术优化路径深度实践
GitHub开源实战|LLM-Cookbook中文大模型工程手册全解析：多场景落地应用与技术优化路径深度实践关键词LLM-Cookbook，中文大模型，Datawhale，大模型实战，LangChain应用，多模态集成，RAG系统，国产模型适配，大模型微调，开源实战解析摘要LLM-Cookbook是由Datawhale社区发起并持续维护的中文大模型应用工程实践项目，旨在系统性总结大模型在中文语境下
AI技术正在深度重构全球产业格局，其影响已超越工具属性，演变为推动行业变革的核心引擎。
一、AI如何重塑AI的工作与行业（AI助手领域）能力升级理解与生成：基于LLM（大语言模型），AI能处理开放式问题、撰写报告、翻译代码，替代部分人类知识工作。个性化交互：通过用户历史对话分析，提供定制化建议（如学习计划、投资策略）。多模态扩展：结合图像/语音识别（如GPT-4V），实现图文分析、医学影像解读等跨模态任务。行业变革客服行业：AI客服处理70%+常规咨询（如阿里小蜜），人力转向复杂问题
颠覆人机交互！多模态 AI Agents 大模型如何用 5 大模式开启智能新时代？
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列七颠覆人机交互！多模态AIAgents大模型如何用5大模式开启智能新时代？一、从“单一感知”到“多模态融合”：A
如何学习智能体搭建
如何学习智能体搭建前言随着人工智能的发展，智能体（Agent）成为自动化、交互式应用和自主决策系统中的核心角色。本书将从零基础出发，系统讲解智能体的基本原理、常见框架、实战搭建与进阶技巧，帮助你快速上手并应用于实际项目。目录智能体基础认知智能体的核心组成主流智能体开发框架本地智能体与云端智能体选型智能体的任务自动化与插件集成智能体的知识检索与上下文管理智能体的多模态扩展智能体安全与可控性智能体实战
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
心理健康语音分析AI模型：开启心理评估新时代 AI大模型应用实战人工智能语音识别 ai
心理健康语音分析AI模型：开启心理评估新时代关键词：心理健康评估、语音信号处理、情感计算、AI模型、多模态融合摘要：传统心理评估依赖量表问卷和人工观察，存在主观性强、效率低、难以实时监测等局限。本文将带您走进“心理健康语音分析AI模型”的世界，从基础概念到核心技术，从算法原理到实战案例，揭秘AI如何通过“听声音”读懂心理状态，开启心理评估的智能化新时代。背景介绍目的和范围心理健康问题已成为全球公共
多模态大语言模型arxiv论文略读（151）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文阅读论文笔记
ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文标题：ANovelMLLM-basedApproachforAutonomousDrivinginDifferentWeatherConditions➡️论文作者：SondaFourati,WaelJaafar,NouraBaccar➡️研究机构:
多模态大语言模型arxiv论文略读（152）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文标题：VidComposition:CanMLLMsAnalyzeCompositionsinCompiledVideos?➡️论文作者：YunlongTang,JunjiaGuo,HangHua,SusanLiang,MingqianFeng,XinyangLi,RuiM
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
多模态AI声纹特征处理与多模态生物识别系统
一、声纹特征处理在多模态AI系统中，声纹特征的处理是实现高精度生物识别的关键步骤之一。以下是声纹特征处理的主要流程：数据预处理语音增强：对采集到的语音信号进行降噪处理，以提高信号质量。语谱图生成：将增强后的语音信号转换为语谱图，语谱图是一种时间-频率表示，能够直观地展示语音信号的频谱变化。图像转换：将彩色语谱图转换为灰度图，进一步进行二值化处理，以便提取纹理特征。特征提取MFCC特征：梅尔频率倒谱
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
推测性解码：加速多模态大型语言模型的推理人工智能培训咨询叶梓人工智能前沿语言模型人工智能自然语言处理计算机视觉推理多模态算法
大模型（LLMs）以其卓越的性能在多个应用场景中大放异彩。然而，随着应用的深入，这些模型的推理速度问题逐渐凸显。为了解决这一挑战，推测性解码（SpeculativeDecoding,SPD）技术应运而生。本文深入探讨了SPD在多模态大型语言模型（MLLMs）中的应用，尤其是针对LLaVA7B模型的优化。MLLMs通过融合视觉和文本数据，极大地丰富了模型与用户的互动，但同时也面临着自回归生成和内存带
揭秘图像LLM：从像素到语言的智能转换 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉深度学习人工智能机器学习算法语言模型
图像LLM是怎么工作图像LLM（多模态大语言模型）的核心是将图像转化为语言模型能理解的“语言”，并与文本深度融合。以下结合CLIP、DALL-E、GPT-4V等主流模型，通过具体例子说明其工作机制：一、图像→特征向量：从像素到“密码”例子：识别“戴墨镜的猫”视觉编码器提取特征使用ResNet或ViT（VisionTransformer）作为图像编码器，将图片分解为局部像素块（如16x16像素）。每
MMaDA：开启多模态扩散语言模型新篇章
MMaDA：开启多模态扩散语言模型新篇章MMaDAMMaDA-Open-SourcedMultimodalLargeDiffusionLanguageModels项目地址:https://gitcode.com/gh_mirrors/mm/MMaDA项目介绍MMaDA（MultimodalLargeDiffusionLanguageModels）是一款全新的多模态扩散基础模型，旨在在文本推理、多模
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

多模态梳理

一、多模态学习基本概念

1 背景

2 模态

3 多模态

4 多模态机器学习

5 案例

二、多模态机器学习的核心技术挑战

1 多模态表示学习

2 多模态转化

3 多模态对齐

4 多模态融合

5 协同学习

三、常见多模态任务

四、单模态特征表示

1. 文本模态的表示

2. 视觉模态的表示

LeNet-5

AlexNet

VGG

ResNet

NIN

GoogLeNet

CapsNet

单通道卷积神经网络

双通道卷积神经网络

混合神经网络

3. 声音模态的表示

声音特征向量的提取

声音特征向量的提取

4. 深度图模态的表示

5. 热红外模态的表示

6. 多光谱模态的表示

7. LIDAR模态的表示

五、多模态特征表示（Multimodal Representation）

五、跨模态对齐（Multimodal Alignment）

（1）显式对齐

（2）隐式对齐

（1）注意力对齐

（2）语义对齐

3 讨论

六、多模态融合

1 前言

2 多模态融合架构（神经网络模型的基本结构形式）

联合架构

协同架构

编解码架构（自监督）

3 分类方式

分类方式一

分类方式二

分类方式三

七、多模态模型

八、多模态应用

1 视觉-音频识别

2 多模态情感分析

3 手机身份认证

九、多模态总结

1 多模态融合研究的难点

2 融合挑战

3 存在的问题

4 多模态融合首要解决的问题

十、推荐论文

引用：

你可能感兴趣的:(多模态,1024程序员节)