多模态学习:综述与分类

可以了解一下zero shot learning(无样本学习?)是什么

应用

  1. 视频演讲到语音的转化(麦格克效应)
  2. 多媒体信息的索引与复原(视频总结等)
  3. 心情识别
  4. 媒体描述(根据图片生成文字、可视化问答)

常用算法

  1. 受限玻尔兹曼机
  2. 循环神经网络
  3. 深度神经网络

多媒体表达

使用来自多种实体的信息来表达数据。
人工设计-》数据驱动(神经网络模型)

  1. 联合表达 f(x1,x2,...,xn):将不同模态的特征映射到同一个特征空间中
  • 概率图模型:深度玻尔兹曼机,深度信念网络
  • 神经网络:
  • 序列模型:RNN、LSTM
  1. 合作表达f(x1)~g(x2):分别使用不同特征进行训练,然后综合考虑不同特征的结果。
  • 相似距离
  • canonical correlation analysis(CCA)

转换(Translate)

image.png
  • 基于例子的方法(实质是字典,类似kNN)
    - 基于检索的模型
    - 混合模型
  • 基于模型(通用的)的方法
    - 基于语法的
    - 基于编码器的
    - 基于持续生成的(适用于时间序列)

关联(ALIGNMENT)

寻找来自不同模态的成分的相关性。

  • 显示关联:(弱)监督算法、无监督算法

  • 隐式关联:图模型、神经网络

融合(Fusion)

image.png

你可能感兴趣的:(多模态学习:综述与分类)