个人方向总结2020

文章目录

  • O
  • KR
  • 介绍目前的方向:多模态机器学习
    • 1. 什么叫做模态(Modality)呢?
    • 2. 多模态有哪几个研究点呢?
      • 2.1多模态表示
      • 2.2 转化 Translation / 映射 Mapping
      • 2.3 对齐 Alignment
      • 2.4 多模态融合 Multimodal Fusion
      • 2.5 协同学习 Co-learning
  • 介绍我目前的工作 :多模态融合
    • 1. 多任务音视频融合方法去检测复杂环境下的婴儿哭泣
    • 2. 婴儿啼哭声识别挑战赛
  • 下一步想要做的方向
    • 1. 多模态中模态转换领域:语音驱动人脸
    • 2. 模型压缩与加速

O

个人方向总结2020

KR

介绍目前的方向大框架
介绍我目前的工作
下一步想要做的方向

介绍目前的方向:多模态机器学习

1. 什么叫做模态(Modality)呢?

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。
个人方向总结2020_第1张图片
同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集(多视角),亦可认为是两种模态。因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。

2. 多模态有哪几个研究点呢?

多模态学习可以划分为以下五个研究方向:
多模态表示学习 Multimodal Representation
模态转化 Translation
对齐 Alignment
多模态融合 Multimodal Fusion
协同学习 Co-learning

2.1多模态表示

好的特征表示对于模型来说是非常关键的,好的特征表示能够大大地提升模型精度。【18】好的特征表示应该具有平滑,空间分开等性质。特征表示发展时间久,早期是提取手工特征,例如描述图片有人设计sift特征【127】,近年来关于大规模数据很多人用CNN。音频方面之前的MFCC手工特征被dnn和rnn取代了【207】。自然语言中用词嵌入取代之前的方法去学习上下文。然而这些只是单模态,多模态表示有新的架构创新:联合表示和协同表示。如下图所示联合表示多模态的输入共同作用于一个共享空间,协同表示每个模态都有一个表示,但是它和另外的模态有一定的关系和结构约束。

在这里插入图片描述

个人方向总结2020_第2张图片

小结:
联合表示将多模态数据投射到一个公共空间,最适合在推理期间存在所有模态的情况。它们已被广泛用于AVSR,情感和多模态手势识别。另一方面,协调表示将每种模态投射到一个单独但协调的空间,使其适用于在测试时只有一种模态的应用,例如:多模式检索和翻译(第4节)和小样本学习。最后,虽然在情境中使用联合表示来构建两种以上模态的表示,但到目前为止,协同空间主要限于两种模态,三种模态非常困难。

2.2 转化 Translation / 映射 Mapping

转化也称为映射,负责将一个模态的信息转换为另一个模态的信息。常见的应用包括:机器翻译(Machine Translation):将输入的语言A(即时)翻译为另一种语言B。类似的还有唇读(Lip Reading)和语音翻译 (Speech Translation),分别将唇部视觉和语音信息转换为文本信息。

个人方向总结2020_第3张图片

2.3 对齐 Alignment

多模态的对齐负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系。这个对应关系可以是时间维度的,比如下图所示的 Temporal sequence alignment,将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。
个人方向总结2020_第4张图片

2.4 多模态融合 Multimodal Fusion

多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。

按照融合的层次,可以将多模态融合分为 pixel level,feature level 和 decision level 三类,分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。而 feature level 又可以分为 early 和 late 两个大类,代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。
在这里插入图片描述

2.5 协同学习 Co-learning

协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。比如迁移学习(Transfer Learning)就是属于这个范畴,绝大多数迈入深度学习的初学者尝试做的一项工作就是将 ImageNet 数据集上学习到的权重,在自己的目标数据集上进行微调。

个人方向总结2020_第5张图片

介绍我目前的工作 :多模态融合

1. 多任务音视频融合方法去检测复杂环境下的婴儿哭泣

个人方向总结2020_第6张图片

2. 婴儿啼哭声识别挑战赛

个人方向总结2020_第7张图片
跟大哥走~

个人方向总结2020_第8张图片

下一步想要做的方向

1. 多模态中模态转换领域:语音驱动人脸

目前阅读过5-6篇相关论文,复现过三篇论文的代码。个人感觉这种没有绝对评价指标的点还是很好发论文,而且做的人不多,比较有意思。

2. 模型压缩与加速

主要研究内容: 蒸馏,剪枝(purning, channel purning, autochannel purning),量化,网络高效化(mobileNetv3,shuffleNetv2,mnasnet)。

优点:方向比较小,容易跟上整个领域的研究前沿。
缺点: 有人认为这个方向基本方法基本定型,每一年的顶会paper,大都逃不出固定的几个套路。

总结: 预研过一段时间,可能会选择放弃了。但是个人感觉也比那些分类领域好做。

你可能感兴趣的:(best,way,about,life)