Multimodal Learing with Deep Boltzmann Machines

原文链接:http://papers.nips.cc/paper/4683-multimodal-learning-with-deep-boltzmann-machines.pdf

  1. 这篇文章描述了一种深度玻尔兹曼机,用于学习由多种输入模态组成的数据生成模型。
  2. 这样的模型可以用来提取将模态融合到一起的统一表示。
  3. 这些表示对分类和信息检索任务都很有用。
  4. 模型学习多模态输入空间上的学习概率密度。
  5. 模型使用潜在变量的状态作为输入的表示。
  6. 即使在缺少某些模态的情况下,也可以通过从条件分布中采样、查找来提取这些表示。
  7. 在由图像文本组成的双模态数据上的实验结果表明,多模态DBM可以学到一个良好的图像文本输入联合空间生成模型,这对于单模态和多模态查询中的信息检索很有用。

现实世界中的信息来源于多输入通道。图像与标题、标签相关;视频包括视觉和语音信号;感觉知觉包括视觉、听觉、运动和触觉通路的同步输入。每一种模态都有其独特的统计特性,所以必须正视他们来源于不同输入通道的事实。通过将这些模式融合到一个联合表示中,可以了解这些数据的有用表示,该联合表示捕获了数据对应的真实世界的“概念”。

eg: 我们想得到一个概率模型,将“beautiful sunset”一词的出现与beautiful sunset图像的视觉特性关联起来,并联合表示它们,以便模型可以根据其中一个,给另一个分配高概率。

其他重点摘取:

  • 文本通常表示为离散的稀疏字数向量,图像用像素强度或特征提取器的输出来表示,这些特征提取器是真值的和密集的。
  • 输入有很多结构,但是很难发现不同模态之间的 低级特征之间 存在的高度非线性关系。
  • 联合表示必定是这样:1) 表示空间的相似性意味着对应的“概念”的相似性;2) 另外也希望,即使在缺少某些模态的情况下,也能容易获得联合表示;3) 给出观察到的,应该有能力确定缺失的模态;4) 提取出来的表示对于识别任务是有用的。
  • DBMs是无向图模型,在隐藏单元的相邻层之间由双向连接。
  • 关键思想:学习多模态输入空间上的联合密度模型。
  • eg: 用大量人工标记的图像集,来学习图像和文本的联合分布P(v_{img},v_{txt}|\Theta ),通过从P(v_{txt}|v_{img},\Theta )P(v_{img}|v_{txt},\Theta )中提取样本,可以确定缺失数据,从而分别进行图像标注和图像检索。
  • Multimodal Learing with Deep Boltzmann Machines_第1张图片

     

  • 关注的是:集成非常不同的数据模态:稀疏单词数量向量和实值密集图像特征。
  • 开发了一个深度玻尔兹曼机作为生成模型,而不是把网络展开,然后作为一个自动编码器,对它进行微调。

Multimodal Learing with Deep Boltzmann Machines_第2张图片

 论文中的实验通过 Bimodal DBM,学习图片和文本的联合概率分布 P(图片,文本)。在应用阶段,输入图片,利用条件概率 P(文本|图片),生成文本特征,可以得到图片相应的文本描述;而输入文本,利用条件概率 P(图片|文本),可以生成图片特征,通过检索出最靠近该特征向量的两个图片实例,可以得到符合文本描述的图片。

你可能感兴趣的:(Multimodal Learing with Deep Boltzmann Machines)