多模态技术简单介绍

大纲

  • 多模态表示学习
  • 模态转换
  • 对齐
  • 多模态融合
  • 协同学习

多模态表示学习

  • 联合表示学习:将多模态的信息一起映射到一个统一的多模态向量空间
    多模态技术简单介绍_第1张图片

  • 协同表示学习:将多模态中的每个模态分别映射到各自的向量表示空间,但是映射后的向量满足一定的相关性约束。
    多模态技术简单介绍_第2张图片

模态转换

也可以称之为映射,主要是将一个模态的信息转换或者映射为另一个模态。

主要应用·
机器翻译(Machine Translation)、唇读(Lip Reading)和语音翻译(SpeechTranslation)
图片描述(lmage Captioning)与视频描述(Video Captioning)
语音合成(Speech Synthesis)

对齐

模态对齐

  • 显式对齐
  • 隐式对齐

多模态融合

多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。

  • 数据级别:数据单纯的融合在一起,通过模型在一起处理
    多模态技术简单介绍_第3张图片
    斜体样式效果可能不太好,对模型要求高。

  • 判定级别:提取不同的特征向量,当进入判定阶段的时候进行相关处理。
    多模态技术简单介绍_第4张图片
    更为常见,实现起来较为简单

  • 组合融合:在模型结构的每一层中,进行融合的过程。
    多模态技术简单介绍_第5张图片
    *对水平要求比较高,理论效果最好 *
    相关任务:

  • 多模态情感分析
    多模态技术简单介绍_第6张图片

  • 视觉-音频识别
    多模态技术简单介绍_第7张图片

协同学习

通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀缺(比如较小数据)的模态建立模型。

你可能感兴趣的:(AI,语音识别,人工智能,深度学习)