AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索

文章题目:Deep Multimodal Neural Architecture Search
链接:link https://arxiv.org/abs/2004.12070
会议期刊:ICCV 2020

论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。

论文内容

多模态学习包括问答系统、图文匹配和文字描述。传统的技术途径要么是固定网络学习,要么是在不同领域搜索各自的网络结构,互补干涉。本文构建了一个通用的框架MMnas,囊括以上三大领域,自适应的搜索网络结构。

AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索_第1张图片

之前的多模态最好的方式,是基于BERT,MMnas相比于BERT不需要那么大的数据,更加高效,并且是稳定的统一框架。虽然问答系统,图文匹配和语义描述,他们的输入都是图片或者句子,但是其各自的算法都是定制的。而BERT所需要的巨大算力,阻碍了其在实际场景中的应用。
 因此本文在MFAS(Multimodal Fusion Architecture Search)的基础上,构建了统一的encoder-decoder框架,并为每一个任务定制head预处理:self-attention (SA), guided-attention (GA), feed-forward network (FFN), and relation self-attention (RSA) 。
 AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索_第2张图片
 每个句子和图片都经过了归一化和裁剪:句子用预训练的GloVe裁剪到300维的向量,其相互关系用m个block表示;图片通过预训练的Fast R-CNN提取n个特征。为了提高搜索效率,该系统的NAS算法使用的是参数共享的one-shot超网机制。
 作者在训练的过程中发现:交替训练网络结构和参数会引起搜索过程的偏差,掉入到局部最优解中。因此作者提出了NAS的warmup,在该阶段不训练网络结构,而是先对ops均匀采样,训练模型参数。这样就能确保模型在组合时,能被很好的初始化,保证了搜索的公平性。
 算法框架图如下:
  AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索_第3张图片
  并且为了比较各个head的作用,作者做了详细的消融学习。最终发现SA对结果影响最大,其原因可是self-attention能知道特征的空间关系,将模型的性能往前推。并且作者发现,SA和RSA是互补的。
  其算法在VQA、VG和ITM任务中都表现优异。
  AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索_第4张图片

AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索_第5张图片 AutoML论文笔记(八)Deep Multimodal Neural Architecture Search:多模态神经网络搜索_第6张图片

你可能感兴趣的:(AutoML论文笔记,深度学习,算法,机器学习,人工智能,神经网络)