论文解读UNITER: UNiversal Image-TExt Representation Learning

论文解读UNITER: UNiversal Image-TExt Representation Learning

  • 简介
  • 结构解读
  • 预训练方法

简介

论文链接: link.
以后争取保持一周3更及以上。UNITER是一个图文表征学习的预训练模型。废话不多说,直接上干货。

结构解读

论文解读UNITER: UNiversal Image-TExt Representation Learning_第1张图片

其结构十分明了。一个image embedder,一个text embedder。然后加多个transormer layer。image embedder 还是采用的faster rcnn,注意的是faster rcnn提取完特征后又加上了location信息,然后通过一个fc层将维度映射到与文本统一维度,之后又做了layer normalization。文本部分与bert相比多了一个fc层。然后图片特征与文本特征连接后输入到transformer。

预训练方法

uinter 有四种预训练方法(i) Masked Language Modeling (MLM) conditioned on image;
(ii) Masked Region Modeling (MRM) conditioned on text; (iii) Image-Text Matching (ITM); and
(iv) Word-Region Alignment (WRA).

Masked Language Modeling (MLM) :与bert 一样,80%时间mask 百分之15单词,10% 替换成随机其他,10% 保持不变。

Masked Region Modeling (MRM):mask 的方式是将特征全置0. 但是其损失函数有三种方式构建。
第一种:Masked Region Feature Regression (MRFR),首先将transformer 的输出通过一个fc 层将其映射到原来的维度,也就是刚被faster rcnn 提取后的维度。然后使用l2 回归的损失。
论文解读UNITER: UNiversal Image-TExt Representation Learning_第2张图片
其中h(vm)是transformer 的输出通过一个fc 层得到的特征,r(vm)是 刚被faster rcnn 提取后的特征。这两者之间计算损失。

第二种:

论文解读UNITER: UNiversal Image-TExt Representation Learning_第3张图片

这个损失的意思就是将transformer 的输出通过一个fc 层输出k类,就是一个多目标分类。其label 就是 fast rcnn检测到的物体。相当于一个交叉熵损失。
第三种:Masked Region Classification with KL-Divergence (MRC-kl):
这个就是用KL-Divergence 做损失函数了。输入的数据分布于预测的数据分布之间距离尽量小。

Image-Text Matching (ITM):

论文解读UNITER: UNiversal Image-TExt Representation Learning_第4张图片
这个比较容易理解,就是加一个[cls] token,用最后一层的cls token 加一个fc 层,去做二分类。 负样本是随机选择其他样本的图片或文字。

Word-Region Alignment (WRA):

论文解读UNITER: UNiversal Image-TExt Representation Learning_第5张图片
WRA 利用 Optimal Transport (OT) 理论来显式地鼓励预训练期间单词和图像区域的细粒度对齐。

剩下的就是论文的预训练数据集,下游任务,和实验结果了
。感兴趣的额可以自己查看原文。

论文解读UNITER: UNiversal Image-TExt Representation Learning_第6张图片

以上就是univer的主要内容了。

你可能感兴趣的:(深度学习,自然语言处理,transformer)