多模态数据、多源数据

多来源数据(multi-source data)

数据并非来自同一信息源,而是来自不同的来源,并被收集在一个数据集中,这种类型的数据称为多源数据。总体来说多来源数据就是取自多个端口的数据集合。(包括但不限于传感器、官方网站、社会新闻、社会媒体等众多来源)

多模态数据(multi-modal data)

多模态即是从多个模态表达或感知事物。 多模态可归类为同质性的模态,例如从两台相机中分别拍摄的图片,异质性的模态,例如图片与文本语言的关系。[2]
个人理解为多模态数据是一种更加细粒度的划分。它可以是:

  • 同一个状态的不同表达:比如分别用文本和图像对应表示的同一个场景状态。
  • 同样表达的不同状态:数据类型相同,但是语义不同。比如传感器收集到的交通速度、车流量。

多模态可能有以下三种形式:

  1. 描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息。
  2. 来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据, 包括B超(B-Scan ultrasonography)、计算机断层扫描(CT)、核磁共振等;物联网背景下不同传感器所检测到的同一对象数据等。
  3. 具有不同的数据结构特点、表示形式的表意符号与信息。如描述同一对象的结构化、非结构化的数据单元;描述同一数学概念的公式、逻辑 符号、函数图及解释性文本;描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等。

对多源异构数据的挖掘分析可被理解为多模态学习。

1.多来源多模态数据融合与集成研究进展
2.多模态学习
3.CMU-10707 第二十一讲 多模态机器学习

你可能感兴趣的:(深度学习,自然语言处理,数据分析)