qq2648008726

ICLR 2020| VL-BERT：预训练视觉-语言模型

今天介绍中国科学技术大学和微软亚洲研究院朱西洲老师团队在ICLR2020的论文，该研究提出了一种新的图形神经网络的几何聚合方式，其核心思想是：在bert的基础上为视觉-语言相关任务做预训练。

VL-BERT: 可预训练的通用视觉-语言表示

作者提出了一种新型可训练通用预训练表示，用于视觉-语言任务，称为视觉-语言BERT(简称VL-BERT)。VL-BERT采用简单且功能强大的Transformer模型作为基础，并对其进行扩展，以视觉和语言的嵌入特征作为输入。其中，作为输入的特征来自输入句子中的单词或者来自输入图像中的感兴趣区域region-of-interest (RoI)，因此模型可以适应大多数视觉-语言的后续任务。并且为了更好地实现通用表示，作者在大规模的概念标注数据集和纯文本语料库上对VL-BERT进行预训练。大量的实证分析表明，预训练的模型可以更好地对齐视觉-语言线索，有利于后续的任务，比如视觉常识推理，视觉问答和引用表达式理解。代码在https://github.com/jackroos/VL-BERT发布。

1.研究背景

对适用于领域内各种任务的通用特征表示进行预训练是成功的神经网络的一个标志。首先，在计算机视觉中，为ImageNet任务设计和预训练的分类任务设计的主干神经网络被发现可以有效地改进许多其他图像识别任务。而在自然语言处理中，Transformer模型经过“masked language model” (MLM)目标任务，在大型语言语料库上进行预训练后模型可应用于各种NLP任务并取得很好的效果。

于此同时对于视觉和语言交叉的任务，如图像字幕，视觉问答，视觉常识推理等，还缺少这种预训练通用特征表示。现有的研究是将已经预训练好的用于图像识别和自然语言处理的神经网络分别结合到特定任务中，而没有通用的视觉-语言预训练。当目标任务的数据不足时，模型很可能会出现过拟合。并且由于模型只针对特定任务，所以很难从预训练中获益。因为预训练的任务和目标任务可能不相关。在研究视觉语言任务的特征设计和预训练方面缺乏共识。

在为不同的视觉-语言任务设计网络结构时，一个关键的目标是能够在视觉和语言领域中有效地聚合多模态信息。例如，为了在VQA任务中选择正确的答案，网络应允许整合问题和答案中的语言信息，并整合输入图像中的视觉信息，并使语言含义与视觉线索保持一致。因此，我们寻求可以有效整合和对齐视觉和语言信息的通用表示。同时，我们看到Transformer中的注意力机制在NLP中的成功应用以及在BERT中基于MLM的预训练技术的成功应用。注意力机制模块在聚合和对齐句子中嵌入单词的功能方面功能强大且灵活，而BERT中的预训练进一步增强了这种能力。

受到BERT的启发，作者提出了VL-BERT，一种用于视觉-语言任务的可预训练通用表示，如图一所示。VL-BERT的主干是（多模式）Transformer注意力模块，以视觉和语言嵌入式特征作为输入。其中，每个输入元素要么是输入句子中的单词，要么是输入图像中的关注区域（RoI），再加上某些特殊元素以消除不同的输入格式的歧义。每个元素都可以根据在其内容，位置，类别等上定义的兼容性来自适应地聚合来自所有其他元素的信息。单词/ RoI的内容特征是特定于域的。模型通过多层多模态Transformer 注意力模块的叠加，使模型具有丰富的视觉-语言线索的聚合和对齐能力。针对特定的视觉语言任务，可以在模型上面添加特定于任务的分支。

为了更好地进行泛化表示，模型在大型的视觉-语言语料库和纯文本数据集中对VL-BERT进行预训练。视觉语言语料库上的预训练损失是通过预测随机掩盖的单词或RoI得到。这种预训练提高了VL-BERT聚合和排列视觉-语言线索的能力。虽然纯文本语料库的损失是BERT中标准MLM损失，但可以改善长而复杂的句子的泛化。

大量的实例表明， VL-BERT在视觉常识推理、视觉问答和引用表达式理解等各种下游视觉语言任务上都达到了最先进的水平。特别地，VL-BERT在视觉常识推理的排行榜上获得了单模型第一名。

图1

2.VL-BERT模型

2.1 模型架构

图1说明了VL-BERT的体系结构。模型在BERT的基础上在输入中嵌入一种新的视觉特征来适应视觉的相关内容。与BERT类似，模型主要由多层双向Transformer编码器组成。但与BERT只处理句子单词不同，VL-BERT把视觉元素和语言元素都作为输入，模型分别在图像的感兴趣区域(RoIs)和输入句子中的单词上定义相应特征。

Token Embedding

根据BERT的经验，语言词汇中嵌入了30000个单词。对每个特殊的元素分配特殊的Token。对于视觉元素，为每个元素分配一个特殊的[IMG]标记。

Visual Feature Embedding

模型分别得到输入图像的视觉外观特征和视觉几何特征，然后将二者结合形成视觉特征。对于RoI所对应的视觉元素，采用Fast R-CNN进行特征表示。其中每个RoI输出层之前的特征向量作为视觉特征嵌入。对于非视觉元素，对应的视觉外观特征是对整个输入图像提取的特征。视觉几何特征的设计是为了通知VL-BERT图像中每个输入视觉元素的几何位置。视觉特征由视觉外观特征和视觉几何嵌入的串联得到，作为输入附在每个输入元素上。

Segment Embedding

模型定义了三种类型的片段A、B、C，将输入元素从不同的来源中进行区分，即A和B分别表示第一个输入句子中的单词和第二个输入句子中的单词，而C表示输入图像中的RoI。

Sequence Position Embedding

与BERT相同，向每个输入元素添加一个可学习的序列位置特征来表示输入序列中的顺序。由于输入的视觉元素之间没有自然的顺序，在输入序列中对它们进行任何排列都应该得到相同的结果，所以视觉元素的序列位置特征都是相同的。

2.2 模型预训练

VL-BERT能够在大规模的数据集上进行预训练。作者在视觉-语言和纯文本的数据集上对VL-BERT进行了预培训。模型使用概念标题数据集作为视觉-语言学的语料库。语料库包含了大约330万张带有标题注释的图片，这些图片是从web数据中获取的，并通过自动管道进行处理。概念性标题数据集的问题在于，标题主要是简单的子句，对于许多后续任务来说，这些子句太短且太简单。所以为了避免在这种简短的文本场景中过拟合，作者还对VL-BERT在长句、复合句的纯文本语料库的进行预训练。作者使用了BooksCorpus和英语维基百科数据集，这些数据集同样也用于BERT的预训练。视觉-语言语料库的预训练提高了视觉内容与语言内容的一致性。这种有效的对齐对于许多下游任务至关重要，而对纯文本语料库的预训练则有助于理解长句和复合句的后续任务。

2.3模型微调

VL-BERT作为各种视觉语言任务的通用特征表示，对于各种下游任务，对VL-BERT进行微调相对简单。我们只需要向VLBERT提供正确格式的输入和输出，并对所有参数进行端到端调整。对于输入，典型的格式有、，已经涵盖大部分的视觉-语言任务。VL-BERT还支持更多的句子和更多的图像。

3. 实验

3.1预训练

VL-BERT使用Conceptual Captions作为视觉-语言语料库进行预训练，并将BooksCorpus 数据集和英文维基百科作为文本语料库进行预训练。由于VL-BERT是基于BERT模型添加捕捉视觉信息的新输入，所以模型初始化参数使其与BERT相同。VL-BERT BASE和VL-BERT LARGE分别表示从原始BERT BASE和BERT LARGE模型发展而来。

3.2对下游任务进行微调

通过对输入格式、输出预测、损失函数和训练策略进行简单的修改，可以对预先训练好的VL-BERT模型进行微调，以适应各种下游的视觉语言任务。

视觉常识推理(VCR)任务

表1

表1说明了预训练的VL-BERT在最后任务中性能提高了1.0%，说明了预训练的有效性。与其他工作相比，即ViLBERT, VisualBERT和B2T2，VL-BERT具有最好的性能。

视觉问答(VQA)任务

表2

表2说明了预训练的VL-BERT性能提高了1.6%，验证了预训练的重要性。除了LXMERT，VL-BERT比其他作品表现更好。这是因为LXMERT预先接受了大量可视化问题回答数据的训练。

引用表达式理解(REC)任务

表3

表3说明了预训练的VL-BERT显著提高了性能。与MAttNet相比，VL-BERT在没有特定于任务的架构设计的情况下要简单得多。

总体而言，通过设置对w/o预训练和VL-BERT BASE的比较，VL-BERT的训练前提高了三个下游任务的性能，在不同任务的改善幅度也不同。

4.总结

在本文中，作者提出了VL-BERT，一个新的可训练的用于视觉-语言任务的通用表示。与使用特定任务模块不同，VL-BERT采用了简单并且强大的Transformer模型作为基础，模型在大规模数据集上进行预训练。大量的实例表明训预训练的模型可以更好地对齐视觉-语言线索，从而使模型在下游任务表现得更好。

参考资料

Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, and Jifeng Dai. 2019. Vl-bert: Pre-training of generic visual-linguistic representations. arXiv preprint arXiv:1908.08530.

你可能感兴趣的:(DrugAI)

Miniconda安装以及安装python-opencv _helen_520 安装和配置各种环境配置环境
一、win10安装Miniconda3教程参考：Windows10下安装Miniconda3_DrugAI-CSDN博客_windows安装miniconda①Miniconda官网下载安装包：Miniconda—Condadocumentation②开源镜像下载：Indexof/anaconda/miniconda/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror备注：
DrugAI资料汇总发呆的比目鱼 DrugAi 人工智能自然语言处理数据挖掘
DrugAI资料汇总CADD学习汇总CADD课程学习（1）--药物设计基础知识分子式基础SMILIES基础CADD课程学习（2）--靶点晶体结构信息数据集分子数据集CADD课程学习（6）--获得已有的虚拟化合物库（Drugbank、ZINC）ChemDrawCADD课程学习（5）--构建靶点已知的化合结构（ChemDraw）蛋白建模CADD课程学习（4）--获取没有晶体结构的蛋白(SWISS-Mo
交互式机器学习/ 强化学习在图像领域中的应用 qq_478377515 深度学习人工智能
交互式机器学习参考：深度学习在交互式图像分割中的应用-知乎Nat.Methods|ilastik:为生物图像分析而生的交互式机器学习平台_DrugAI-CSDN博客https://d-nb.info/1183327005/34(InteractiveObjectDetection)CVPR2020|利用强化学习进行交互式3D医学图像分割_zandaoguang的博客-CSDN博客强化学习参考：基于
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr