Differentiable Reasoning Over a Virtual Knowledge Base 基于虚拟知识库的可微推理

《Differentiable Reasoning Over a Virtual Knowledge Base》

中文名 《基于虚拟知识库的可微推理》

简称:DrKIT

会议:ICLR2020

作者:卡耐基梅隆大学 谷歌研究院

论文地址
github

关键词:虚拟知识库 端到端 迭代 外部编码

前言

传统知识库

When was the Grateful Dead’s lead singer born

需要从知识库中检索三个实体:Grateful Dead lead singer BirthDate进行回答

缺点:知识库不完善,填充知识库的方法又易出错,成本高,效率低

开放域知识库

开放域的知识库将 a large corpus作为 a virtual KB

句子1: Jerry Garcia was the lead singer of the Grateful Dead

句子2 :Jerry Garcia was born in 1942

优点:避免知识库建立时关系抽取中信息的丢失

缺点:涉及到实体集或者关系集的复杂的问题,可能需要从多个文档中聚合信息,计算成本高昂。

相关工作

知识图谱embedding 只是对知识库提供一种计算方法,同样不能解决知识库信息不完善的问题。

Seo(2018,2019)提出短语检索QA,对大规模语料每段文本建立索引,通过计算向量乘积搜索来定位问题位置,但仅适用于单个段落可以回答的问题。无法用于复杂的查询。

主要工作

本文解决了跨段落复杂查询的问题,搭建了一个端到端的系统DrKIT,可微分计算,可使用优化算法进行优化。

思想:主要用来模仿在知识库中的文本语料库遍历过程,并提供了在虚拟知识库中沿着关系搜寻的能力。

迭代为复杂问题寻找答案的过程,如果问题答案在多个文档中,则需要不断收集文档信息,进行目标答案搜索,本论文建立了一种机制,利用计算的方法自动在文档中寻找实体之间的关系。

将文本通过稀疏tfidf 图和最大内积搜索的方式构造虚拟知识图谱,在阅读理解上取得了较好效果。

问题定义:

弱监督问题:

输入:问题q(多跳问题) 文档材料

输出:答案中的实体z (答案中包含的所有实体,并不是直接答案)

弱监督含义: 较弱的监督形式。只能知道问题对应答案的所有实体,所以这是一个弱监督学习问题。

mention : 翻译为提及,是entity的文本表现形式,可以是name、nominal、pronoun,即命名实体、普通名词短语、代词

举例

mention:复旦、五角场文理学院、旦大

entity:复旦大学

SLING to identify entity mentions.是命名实体识别的任务。

模型

Differentiable Reasoning Over a Virtual Knowledge Base 基于虚拟知识库的可微推理_第1张图片

模型主干:

通过问题中的实体z 在文档中搜索mentions, 通过mentions 得到新的实体作为候选实体,并作为新的实体开始下一轮搜索。

左部分

句子中实体扩展所有mentions

根据问题中实体从语料库句子中提取mentions,并基于TF-IDF从每个实体的共现中计算实体之间的关系

稀疏矩阵由稀疏向量的乘积得到。m为所有mention数量,2为实体数量
V ( m e n t i o n s ) ∗ V ( 实 体 ) = ( m ∗ 1 ) ( 1 ∗ 2 ) = ( m ∗ 2 ) V(mentions)*V(实体)= (m*1)(1*2)=(m*2) VmentionsV=(m1)(12)=(m2)

Sparse TFIDF Mention Encoding:使用一元和二元模型计算TFIFDF向量,映射在词汇量16M的空间中。

TFIDF作用:为了限制端到端模型的不可控,实体搜索限制。

右部分

使用BERT编码问题,以及mentions在语料库中句子的编码

句子和句子中实体Bert-like模型编码,函数f是mentions的Bert编码

通过外部知识库和大规模语料预训练好的,使用远程监督的方法,所有的mention都有固定的编码。

中部

使用内积函数将mentions 进行排序寻找TopK mentions

底部

找到最相关的mentions,并找出mentions 的实体,作为第一轮候选答案。搜索候选答案,同时提取未出现在答案问题文本中的潜在实体。

两个阶段训练

预训练阶段:

远程监督:用KB去对齐朴素文本的标注方法,自动标注数据,解决人工标注的问题。

WikiData KB 950K pairs + Wikipedia 550K articles

外部模型:Bert-like 预训练的Bert-large

训练阶段:

实验一 多跳文本问答(Multi-hop Question Answeing with Text)

18K Wikipedia passages(退伍军人205问约700段落,大概需要90个这样的文件)

从电影知识库通过模版转化成40万问题。

MetaQA consists of around 400K questions ranging from 1 to 3 hops constructed by sampling relation paths from a movies KB (Miller et al., 2016) and converting them to natural language using templates.

实验二 多跳插槽填充(Multi-hop Slot-Filling)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JuY1STaI-1590978152264)(/Users/chenfan/Documents/mdPic/image-20200529135213688.png)]

实验三 多跳信息检索(Multi-hop Information Retrieval)

大小超过10万的众包多跳问题集和基于Wikipedia文段的回答的数据集

实验结果

Differentiable Reasoning Over a Virtual Knowledge Base 基于虚拟知识库的可微推理_第2张图片

总结

通过问题 和问题中实体相关段落的Bert编码,表示句子语义。

通过问题中的实体,展开检索候选答案位置,从而定位到潜在实体所在文本,迭代进行,直到找到目标答案。

你可能感兴趣的:(Differentiable Reasoning Over a Virtual Knowledge Base 基于虚拟知识库的可微推理)