Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

目录

1.介绍(introduction)

2.历史回顾(review)

3.表示(representation)

4.映射(Translation/Mapping)

5.对齐(Alignment)

6.融合(Fusion )

7.联合学习(Co-learning)

8.结论(conclusion)


以下是本人每一章节整理的笔记:

1.介绍(introduction)

论文总体介绍了多模态的五个方向/挑战:表示(representation)、映射(Translation)、对齐(Alignment)、融合(Fusion )、联合学习(Co-learning)。

2.历史回顾(review)

对多模态应用领域进行了简单历史回顾:视听语音识别、多媒体内容检索、理解人类行为等方向应用进行简单的描述。

以下部分就开始对五个挑战/方向进行描述:

3.表示(representation)

定义:就是找到多模态信息的统一表示,在计算机中一般是向量或张量

      表示方法               定义     面临困难   实现方法      适用情景      应用领域

 联合表(joint)

将各个模态的数据源映射到同一个空间中进行表示

1.如何把不同模态的数据结合起来

2.如何处理不同层(level)的噪音

3.如何处理丢失的数据

神经网络

概率图模型

Sequential模型
输入所有模态数据来得出结果,如输入语音和图片来得出识别结果 视听语音识别、多模态手势识别

     协同表示

(coordinated)
分别将各模态投影到独立的空间中表示,但是这些空间有约束关系

相似度模型

结构化模型
输入一种模态来得出结果,如输入一张狗的图片,输出“狗”的文本 多模态检索和翻译、grounding、零样本学习

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述_第1张图片

4.映射(Translation/Mapping)

定义:映射就是把一个模态的信息映射成另一个模态的信息

映射方法 定义 面临的困难 实现方法 应用领域

基于例子模型

(example-based)
在多模态之间建立字典,形成对应关系 由于答案通常非常开放和主观,难以实现评估,如一张图片的描述文字可以有多种

基于检索模型

Combination-based模型

媒体字幕生成

视频描述

文本生成图片

生成式模型

(generative)
通过训练,让模型产生映射能力

基于语法模型

编码解码模型

连续生成模型

 

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述_第2张图片

5.对齐(Alignment)

定义:寻找多种模态的子成分之间的关系和对应,如图片中的狗对齐文本中的狗

对齐方法                  定义           面临的困难     实现方法

显式对齐

(explicit)
显式对齐就是对齐任务的子结构,如菜谱步骤和视频的对齐

1.很少有显式对齐标注的数据集

2.在模态之间设置相似度指标很困难

3.存在多种对应关系以及不是每种模态的元素在另一模态都有对应

无监督方法

(弱)监督方法

隐式对齐

(implicit)
隐式对齐用作另一个任务的中间步骤,如文本检索图像,单词和图像区域的对齐

图模型

神经网络

6.融合(Fusion )

定义:将多个模态的信息整合到一起来预测结果

  融合方法     定义     面临的困难  实现方法      适用场景     应用领域
无模型方法 不依赖与某个特定的机器学习算法

1.信号可能不是时序对齐的(密集连续的信号和稀疏的事件),比如一段视频只对应一个单词

2.每种模态在不同时间点可能会出现不同类型和不同层次的噪音

特征融合

决策融合

混合融合
它们几乎可以使用任何单模分类器或回归器来实现

多模态说话者(speaker)识别

多媒体事件检测
基于模型的方法 显式的在构造中完成融合

多核学习

图模型

神经网络
在数据量有限或者模型的可解释性很重要的时候,多核学习和图模型更好

物标分类

表情识别

视听语音识别

7.联合学习(Co-learning)

定义:通过数据源丰富的模态来辅助数据源稀少的模态进行学习

   按数据分类                定义           实现方法      应用领域
平行数据 来自相同的数据集,实例之间有直接的对应关系

Co-training

Transfer learning

视觉分类

动作识别

视听语音识别

语义相似度估计
非平行数据 来自不同的数据集,没有重叠的实例,但在一般类别或概念重叠

Transfer learning

Conceptual grounding

Zero shot learning
混合数据 实例或概念由第三种模式或数据集连接 Bridging

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述_第3张图片

8.结论(conclusion)

作者在结尾讲到,以前对融合这个方向做了很长时间研究,但是近段时间研究者们更热衷表示和映射这两个方向

你可能感兴趣的:(机器学习)