名称 | 项目 |
---|---|
题目 | DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning |
中文 | 深度路径:知识图推理的强化学习方法 |
来源 | EMNLP 2017 |
作者 | Xiong, Wenhan and Hoang, Thien and Wang, William Yang |
代码 | https://hub.fastgit.org/xwhan/DeepPath |
摘要 | We study the problem of learning to reason in large scale knowledge graphs (KGs). More specifically, we describe a novel reinforcement learning framework for learning multi-hop relational paths: we use a policy-based agent with continuous states based on knowledge graph embeddings, which reasons in a KG vector space by sampling the most promising relation to extend its path. In contrast to prior work, our approach includes a reward function that takes the accuracy,diversity, and efficiency into consideration. Experimentally, we show that our proposed method outperforms a path-ranking based algorithm and knowledge graph embedding methods on Freebase and Never-Ending Language Learning datasets. (我们研究了大规模知识图中的推理问题。更具体地说,我们描述了一种新的用于学习多跳关系路径的强化学习框架:我们使用基于知识图嵌入的连续状态的基于策略的智能体,它通过抽样最有希望的关系来扩展其路径,在KG向量空间中进行推理。与之前的工作不同,我们的方法包括一个考虑准确性、多样性和效率的奖励。在Freebase和NELL数据集上,我们的实验表明,我们提出的方法优于基于路径排名的算法和知识图嵌入方法) |
~~~~~~~ 近年来,深度学习技术在各种分类和识别问题上取得了许多最新的成果。然而,复杂的自然语言处理问题往往需要多个相互关联的决策,使深度学习模型具有学习推理的能力仍然是一个具有挑战性的问题。为了处理没有明显答案的复杂查询,智能机器必须能够利用现有资源进行推理,并学会推断一个未知的答案。
~~~~~~~ 更具体地说,我们把我们的研究放在多跳推理的背景下,给定较大的KG,学习显式推理公式;
例如,如果KG包括内马尔为巴塞罗那效力,而巴塞罗那在英甲联赛,那么机器应该能够学习以下公式:
p l a y e r P l a y s F o r T e a m ( P , T ) ∧ t e a m P l a y s I n L e a g u e ( T , L ) ⇒ p l a y e r P l a y s I n L e a g u e ( P , L ) playerPlaysForTeam(P ,T)∧teamPlaysInLeague(T,L)⇒playerPlaysInLeague(P ,L) playerPlaysForTeam(P,T)∧teamPlaysInLeague(T,L)⇒playerPlaysInLeague(P,L)
在测试的时候,通过输入学到的公式,系统应该能够自动推断出一对实体之间缺失的链接。这种推理机可能会成为复杂QA系统的重要组成部分。
~~~~~~~ 近年来,路径排序算法(PRA) (Lao et al.,2010,2011a)作为一种很有前途的方法能够在大型KGs中学习推理路径。PRA采用基于重启的推理机制的随机行走,执行多个有界深度优先搜索过程来查找关系路径。再加上基于弹性网(elastic-net)的学习,PRA使用监督学习选择更合理的路径。然而,PRA操作在一个完全离散的空间中,这使得评估和比较KG中相似的实体和关系变得困难。
~~~~~~~ 在这项工作中,我们提出了一种新的可控多跳推理方法:我们为路径学习过程建立了一个强化学习(RL)框架。与PRA相比,我们使用基于平移的基于知识的嵌入方法(Bordes et al.,2013)来编码我们的RL智能体的连续状态,这是在知识图的向量空间环境中推理的。智能体通过对一个关系进行抽样来扩展它的路径,从而采取增量步骤。为了更好地指导RL 智能体学习关系路径,我们使用了策略梯度训练(Mnih等人,2015)和一个新的奖励函数,共同鼓励准确性、多样性和效率。实验结果表明,该方法优于PRA算法和基于嵌入的算法。2018年7月7日在Freebase和一个NELL(Carlson et al.,2010a)数据集上的方法。我们的贡献有三:
~~~~~~~ 路径排序算法(PRA)方法(Lao et al.,2011b)是一种主要的寻路方法,采用带重启策略的随机行走进行多跳推理。Gardner等人(2013;2014)对PRA提出了一种改进,在向量空间中计算特征相似度。Wang和Cohen(2015)提出了一种将背景KG和文本相结合的递归随机行走方法,该方法同时进行逻辑程序的结构学习和文本中的信息提取。随机游走推理的一个潜在瓶颈是,连接大量公式的超级节点将创建巨大的扇出区域,显著降低推理速度并影响精度。
~~~~~~~ Toutanova等人(2015)为多跳推理提供了一种卷积神经网络解决方案。他们建立了一个基于词汇化依赖路径的CNN模型,该模型由于解析错误而存在错误传播问题。Guu等人(2015)使用KG嵌入来回答路径查询。Zeng et al.(2014)描述了一个用于关系抽取的CNN模型,但它没有明确地建模关系路径。Neelakantan等人(2015)提出了一种用于知识库完成(KBC)中关系路径建模的递归神经网络模型,但它训练了太多的独立模型,并且因此,它不能规模化。注意,许多最近的KG推理方法(Neelakantan等人,2015;Das等人,2017)仍然依赖于首次学习PRA路径,这只在离散空间中操作。与PRA相比,我们的方法在连续空间中进行推理,并且通过在奖励函数中引入各种标准,我们的强化学习(RL)框架对寻径过程具有更好的控制和更大的灵活性。
~~~~~~~ 神经符号机(Liang et al.,2016)是KG推理的最新成果,它也应用了强化学习,但与我们的工作有不同的风格。NSM学习编写可以找到自然语言问题答案的程序,而我们的RL模型试图通过对已有的KG三元组进行推理,将新的事实添加到知识图(KG)中。为了得到答案,NSM学会生成一系列动作,这些动作可以组合成一个可执行程序。NSM中的操作空间是一组预定义的令牌。在我们的框架中,目标是寻找推理路径,因此动作空间就是KG中的关系空间。类似的框架(Johnson et al.,2017)也被应用于视觉推理任务。
~~~~~~~
~~~~~~~ 在本节中,我们将详细描述基于rl的多跳关系推理框架。关系推理的具体任务是在实体对之间寻找可靠的预测路径。我们将寻路问题表述为一个可以用RL智能体解决的顺序决策问题。我们首先描述环境和基于策略的RL智能体。通过与围绕KG设计的环境交互,智能体学会选择有希望的推理路径。然后描述了RL模型的训练过程。在此基础上,提出了一种有效的路径约束搜索算法,利用RL智能体找到的路径进行关系推理。
~~~~~~~ RL系统由两部分组成(参见图1)。
~~~~~~~ 第一部分是外部环境 E \mathcal{E} E,它描述了智能体与KG之间相互作用的过程。这个环境被建模为马尔可夫决策过程(MDP)。定义一个元组 < S , A , P , R > \mathcal{} <S,A,P,R>表示MDP,其中连续状态空间A={a1, a2,…, an}是所有可用动作的集合, P ( S t + 1 = s 0 ∣ S t = s , A t = a ) \mathcal{P(St+1=s0|St=s, At=a) } P(St+1=s0∣St=s,At=a)为转移概率矩阵, R ( s , a ) \mathcal{R(s, a)} R(s,a)是每个 ( s , a ) \mathcal{(s, a)} (s,a)对的奖励函数。
~~~~~~~ 系统的第二部分是RL智能体,它由一个策略网络 π θ ( s , a ) = p ( a ∣ s ; θ ) \mathcal{πθ(s, a) =p(a|s;θ)} πθ(s,a)=p(a∣s;θ)表示,该网络将状态向量映射为随机策略。采用随机梯度下降法更新θ的神经网络参数。与Deep Q Network (DQN) (Mnih等人,2013)相比,基于策略的RL方法更适合我们的知识图场景。原因:
~~~~~~~ 在描述我们的策略网络结构之前,我们首先描述RL环境的组件(动作、状态、奖励)。
~~~~~~~ 给定具有关系 r \mathcal{r} r的实体对 ( e s , e t ) \mathcal{(e_s, e_t)} (es,et),我们希望智能体找到连接这些实体对的最有信息量的路径。从源实体 e s e_s es 开始,使用策略网络选择最有希望的关系,在每一步扩展它的路径,直到它到达目标实体 e t e_t et 。为保持策略网络输出维数的一致性,将行动空间定义为KG中的所有关系。
~~~~~~~ KG中的实体和关系自然是离散的原子符号。因为现有的实际KGs,如Freebase (Bollacker et al., 2008)和NELL (Carlson et al.,2010b)经常有大量的三元组。不可能直接模拟所有状态中的符号原子。为了捕获这些符号的语义信息,我们使用基于翻译的嵌入,如TransE (Bordes et al.,2013)和TransH (Wang et al.,2014)来表示实体和关系。这些嵌入将所有符号映射到一个低维向量空间。在我们的框架中,每个状态(state)捕获智能体在KG中的位置。在执行一个操作(action)之后,智能体将从一个实体移动到另一个实体。这两者通过智能体所采取的动作(action)(关系 relation)联系在一起。在t步处的状态向量如下:
s t = ( e t , e t a r g e t − e t ) s_t= (e_t,e_{target}−e_t) st=(et,etarget−et)
e t e_t et 表示当前实体节点的嵌入,而 e t a r g e t e_{target} etarget表示目标实体的嵌入。在初始状态, e t = e s o u r c e e_t = e_{source} et=esource。 我们没有在状态中加入推理关系,因为在寻径过程中推理关系的嵌入是不变的,这对训练没有帮助。然而,我们发现,通过使用一组针对特定关系的正样本来训练RL 智能体,该 智能体可以成功地发现关系语义。
~~~~~~~ 有几个因素会影响RL智能体找到的路径的质量。为了鼓励代理找到预测路径,我们的奖励函数包括以下评分标准:
~~~~~~~ 对于我们的环境设置,智能体可以采取的操作数量可能非常大。换句话说,错误的顺序决策比正确的顺序决策多得多。这些错误决策序列的数量会随着路径的长度呈指数增长。鉴于这一挑战,我们添加到RL模型中的第一个奖励函数定义如下:
r G L O B A L = { + 1 , i f t h e p a t h r e a c h e t a r g e t − 1 , o t h e r w i s e r_{GLOBAL}=\begin{cases} +1,&if \ the \ path \ reach \ e_{target} \\ -1 ,&otherwise \end{cases} rGLOBAL={+1,−1,if the path reach etargetotherwise
如果智能体在一系列动作后到达目标,它将获得离线正奖励+1。
~~~~~~~ 对于关系推理任务,我们观察到短路径比长路径更能提供可靠的推理证据。更短的关系链也可以通过限制RL与环境交互的长度来提高推理的效率。效率奖励的定义如下:
r E F F I C I E N C Y = 1 l e n g t h ( p ) r_{EFFICIENCY} = \frac{1}{length(p)} rEFFICIENCY=length(p)1
其中路径 p p p定义为关系 r 1 → r 2 → … → r n r_1→r_2→…→r_n r1→r2→…→rn的序列。
~~~~~~~ 我们训练智能体为每个关系使用正样本寻找路径。这些训练样本 ( e s o u r c e , e t a r g e t ) (e_{source}, e_{target}) (esource,etarget)在向量空间中具有类似的状态表示。智能体倾向于找到具有相似语法和语义的路径。这些路径通常包含冗余信息,因为其中一些路径可能是相关的。为了鼓励agent寻找多样化的路径,我们利用当前路径与现有路径之间的余弦相似度定义一个多样性奖励函数:
KaTeX parse error: Undefined control sequence: \abs at position 27: …Y} = -\frac{1}{\̲a̲b̲s̲{F}} \sum_{i=1}…
其中 p = ∑ i = 1 n r i p=\sum^n_{i=1}{r_i} p=∑i=1nri代表关系链 r 1 → r 2 → … → r n r_1→r_2→…→r_n r1→r2→…→rn的路径嵌入。
~~~~~~~ 我们使用一个全连接的神经网络参数化策略函数 π ( s ; θ ) π(s;θ) π(s;θ),该函数将状态向量 s s s映射到所有可能动作的概率分布。神经网络由两个隐层组成,每个隐层后面是一个非线性层(ReLU)。输出层使用softmax函数进行规范化(参见图1)。
~~~~~~~ 在实践中,KG推理的一个大挑战是关系集可以相当大。对于一个典型的KG, RL智能体经常面临数百(数千)种可能的操作。换句话说,策略网络的输出层通常具有较大的维度。由于关系图的复杂性和大的动作空间,如果直接采用RL算法典型的试错训练方法训练RL模型,RL模型的收敛性很差。经过长时间的训练,智能体没有找到任何有价值的途径。为了解决这个问题,我们从阿尔法狗使用的模仿学习管道(Silver et al.,2016)启发的有监督的策略开始训练(Silver et al.,2016)。在围棋游戏中,玩家每一步都要面对近250种可能的合法走法。直接训练agent从原始动作空间中选择动作可能是一项困难的任务。AlphaGo首先利用专家的行动训练一个有监督的策略网络。在我们的例子中,监督策略使用随机广度优先搜索(BFS)进行训练。
~~~~~~~ 对于每个关系,我们使用所有正样本(实体对)的子集来学习监督策略。对于每个正样本 ( e s o u r c e , e t a r g e t ) (e_{source}, e_{target}) (esource,etarget),进行双侧BFS以在实体之间找到相同的正确路径。每个路径的关系序列是 r 1 → r 2 → … → r n r_1→r_2→…→r_n r1→r2→…→rn,我们更新参数θ,使用蒙特卡罗策略梯度(Monte-Carlo Policy Gradient,REINFORCE)使预期累积回报最大化:
J ( θ ) = E a ∼ π ( ∑ t R s t , a t ) = ∑ t ∑ a ∈ A π ( a ∣ s t ; θ ) R s t , a t J(\theta) = \mathbb{E}_{a\sim\pi}{(\sum_t{R_{s_t,a_t}})}=\sum_t\sum_{a \in \mathcal{A}}{\pi (a|s_t;\theta)R_{s_t,a_t}} J(θ)=Ea∼π(t∑Rst,at)=t∑a∈A∑π(a∣st;θ)Rst,at
其中 J ( θ ) J(θ) J(θ)是一个episode的预期总报酬。对于监督式学习,每成功episode的每一步我们都给予+1的奖励。将BFS找到的路径代入,更新策略网络的近似梯度如下图所示:
∇ θ J ( θ ) = ∑ t ∑ a ∈ A π ( a ∣ s t ; θ ) ∇ θ l o g π ( a ∣ s t ; θ ) ≈ ∇ θ ∑ t l o g π ( a = r t ∣ s t ; θ ) \nabla_\theta{J(\theta)}= \sum_t\sum_{a \in \mathcal{A}}{\pi (a|s_t;\theta)\nabla_\theta log \pi(a|s_t;\theta) } \approx \nabla_\theta \sum_t log \pi(a= r_t|s_t;\theta) ∇θJ(θ)=t∑a∈A∑π(a∣st;θ)∇θlogπ(a∣st;θ)≈∇θt∑logπ(a=rt∣st;θ)
r t r_t rt属于路径 p p p
~~~~~~~ 然而,香草BFS是一种偏向于短路径的搜索算法。当插入这些有偏差的路径时,智能体很难找到可能有用的更长的路径。我们希望路径只被定义的奖励方法所控制。为了防止偏搜索,我们采用了一个简单的技巧,在BFS中添加了一些随机机制。我们没有直接搜索 ( e s o u r c e , e t a r g e t ) (e_{source}, e_{target}) (esource,etarget)之间的路径,而是随机选择一个中间节点 e i n t e r e_{inter} einter,然后在 ( e s o u r c e , e i n t e r ) (e_{source}, e_{inter}) (esource,einter)和 ( e i n t e r , e t a r g e t ) (e_{inter}, e_{target}) (einter,etarget)之间进行两个BFS。连接的路径用于训练代理。有监督的学习可以让agent从失败的动作中学习。通过学习到的经验,我们训练agent找到理想的路径。
~~~~~~~ 为了找到由奖赏函数控制的推理路径,我们使用奖赏函数对有监督的策略网络进行再训练。对于每个关系,一个实体对的推理被视为一个episode。agent从源节点 e s o u r c e e_{source} esource开始,根据所有关系的概率分布——随机策略 π ( a ∣ s ) π(a|s) π(a∣s)选择一个关系来扩展其推理路径。这个关系链接可能会引导向一个新的实体,也可能什么都没有。这些失败的步骤将导致智能体收到负奖励。在这些失败的步骤之后,智能体将保持相同的状态。由于代理遵循随机策略,智能不会因为重复错误的步骤而被卡住。为了提高训练效率,我们对集长度进行了限制 m a x _ l e n g t h max \_ length max_length,如智能体在 m a x _ l e n g t h max \_ length max_length,步长范围内未能到达目标实体,则该episode结束。在每一episode之后,策略网络将使用以下梯度进行更新:
∇ θ J ( θ ) = ∇ θ ∑ t l o g π ( a = r t ∣ s t ; θ ) R t o t a l \nabla_\theta{J(\theta)}= \nabla_\theta \sum_t log \pi(a= r_t|s_t;\theta)R_{total} ∇θJ(θ)=∇θt∑logπ(a=rt∣st;θ)Rtotal
其中 R t o t a l R_{total} Rtotal定义的奖励函数的线性组合。再训练过程的细节在算法1中显示。
在实践中,θ使用Adam Optimizer (Kingma and Ba,2014)和L2正则化(L2regularization)进行更新。
~~~~~~~ 给定一个实体对,RL智能体学习的推理路径可以作为逻辑公式来预测关系链接。每个公式都使用双向搜索进行验证。在典型的KG中,一个实体节点可以连接到具有相同关系链路的大量邻居。一个简单的例子是关系 p e r s o n n a t i o n a l i t y − 1 personnationality^{-1} personnationality−1,它表示 p e r s o n n a t i o n a l i t y personnationality personnationality的逆关系。通过这种联系,实体 U n i t e d S t a t e s United States UnitedStates可以与众多邻国联系。如果公式中包含这样的链接,那么中间实体的数量可以按照推理公式成倍增加。然而,我们观察到,对于这些公式,如果我们从反方向验证公式。中间节点的数量可以大大减少。算法2给出了所提出的双向搜索的详细描述。
~~~~~~~ 为了评估我们的RL代理找到的推理公式,我们探索了两个标准的KG推理任务:链接预测(预测目标实体)和事实预测(预测未知事实是否成立)。我们将该方法与基于路径的方法和基于嵌入的方法进行了比较。之后,我们进一步分析了我们的RL agent找到的推理路径。这些高度预测性的路径验证了奖励功能的有效性。最后,我们进行了一个实验来研究监督学习的效果。
~~~~~~~ FB15K-237 (Toutanova et al.,2015)中的三元组取自FB15K (Bordes et al.,2013),去除冗余关系。我们在具有足够推理路径的20个关系上执行推理任务。这些任务包含不同领域的关系,如Sports,People,Locations,Film等。此外,我们从NELL系统的995次迭代中提出了一个新的适用于多跳推理的NELL子集。我们首先删除带有generalizations和haswikipediaurl关系的三元组。这两种关系在NELL数据集中出现了超过200万次,但它们没有推理价值。在这一步之后,我们只选择关系为Top-200的三元组。为了便于寻径,我们还添加了逆三元组。对于每个三元组 ( h , r , t ) (h, r, t) (h,r,t),我们将 ( t , r − 1 , h ) (t, r^{−1},h) (t,r−1,h)附加到数据集。使用这些逆三元组,智能体能够在KG中后退。
~~~~~~~ 对于每个推理任务 r i r_i ri,我们从KG中删除所有带有 r i r_i ri或者$ r_i^{-1}$的三元组。这些被移除的三元组被分成训练和测试样本。
对于链路预测任务,测试三元组 ( h , r , t ) {(h, r, t)} (h,r,t)中的每一个 h h h都被认为是一个查询。使用不同的方法对一组候选目标实体进行排序。
对于事实预测,真实的测试三元组与一些生成的假三元组进行排序。
~~~~~~~ 大多数KG推理方法是基于路径公式或KG嵌入。在我们的实验中,我们探索了这两类的方法。
对于基于路径的方法,我们将我们的RL模型与PRA (Lao et al.,2011a)算法进行了比较,PRA算法已被用于几种推理方法(Gardner et al.,2013;Neelakantan et al.,2015)。PRA是一种数据驱动的寻路算法,采用RW (random walks)算法进行寻路,获取路径特征。
对于基于嵌入的方法,我们评估了几种设计用于知识库完成的最先进的嵌入方法,如TransE (Bordes et al.,2013)、TransH (Wang et al., 2014)、TransR (Lin et al.,2015)和TransD (Ji et al.,2015)。
~~~~~~~ PRA的实现是基于(Lao et al.,2011a)的代码。我们使用TopK负模式生成训练样本和测试样本的负样本。对于每个正样本,大约有10个对应的负样本。每个负样本是通过在每个三元组 ( h , r , t ) (h, r, t) (h,r,t)中 t t t用假的 t ′ t' t′替换真实的目标实体而产生的。这些由PRA生成的正负测试对构成了本文所评估的所有方法的测试集。对于TransE,R,H,D,我们使用正向训练实体对为每个推理任务学习一个单独的嵌入矩阵。所有这些嵌入都经过了1000轮的训练。
~~~~~~~ 我们的RL模型利用TransE得到实体和关系的连续表示。我们使用与TransE, R相同的维度来嵌入实体。具体来说,我们使用的状态向量的维数为200,这也是政策网络的输入大小。为了使用路径公式进行推理,我们采用与PRA类似的线性回归方法对路径重新排序。然而,我们简单地使用双向搜索获得的二进制路径特征,而不是使用计算代价昂贵的随机行走概率作为路径特征。我们观察到,与PRA的数据驱动方法相比,我们的方法仅使用少量的挖掘路径公式,就可以获得更好的结果。
~~~~~~~ 此任务是对给定查询实体的目标实体进行排序。表2显示了两个数据集的平均平均精度(MAP)结果。
~~~~~~~ 由于基于路径的方法通常比嵌入方法在这个任务中工作得更好,我们不包括其他两个嵌入基线在这个表中。相反,我们腾出空间来展示每个关系推理任务的详细结果。
~~~~~~~ 对于表中最后一行所示的整体MAP,我们的方法在两个数据集上显著优于基于路径的方法和嵌入方法,这验证了我们的RL模型强大的推理能力。对于大多数关系,由于嵌入方法不能使用KG中的路径信息,它们的表现通常比我们的RL模型或PRA模型差。
然而,当实体之间没有足够的路径时,我们的模型和PRA会给出较差的结果。
例如,对于 f i l m W r i t t e n B y filmWrittenBy filmWrittenBy,我们的RL模型只找到了4条唯一的推理路径,这意味着实际上在KG中没有足够的推理证据。
另一点,我们总是在NELL数据集上获得更好的性能。通过分析从KGs中找到的路径,我们认为,潜在的原因是NELL数据集比FB15K-237有更多的短路径,其中一些只是推理关系的同义词。
~~~~~~~ 这个任务不是对目标实体进行排序,而是直接对特定关系的所有正样本和负样本进行排序。这里不包括PRA作为基线,因为PRA代码只给出每个查询节点的目标实体排名,而不是所有三元组的排名。表3显示了所有方法的总体结果。我们的RL模型在这个任务上得到了更好的结果。我们还观察到,RL模型在大多数推理任务中击败了所有的嵌入基线。
~~~~~~~ 为了分析推理路径的属性,我们在表5中展示了代理找到的一些推理路径。
为了说明效率奖励函数的效果,我们展示了图2中的路径长度分布。
为了解释这些路径,以 p e r s o n n a t i o n a l i t y personnationality personnationality为例,第一个推理路径表明,如果我们知道 p l a c e O f B i r t h ( x , y ) placeOfBirth(x,y) placeOfBirth(x,y)和 l o c a t i o n C o n t a i n s ( z , y ) locationContains(z,y) locationContains(z,y),那么人 x x x 属于 国家 z z z 是很可能的。这些短但可预测的路径表明了RL模型的有效性。
另一个重要的观察是,我们的模型使用了很多与PRA相比,该模型的推理路径更少,表明该模型能够从KG中提取出最可靠的推理证据。表4显示了一些关于推理路径数量的比较。我们可以看到,通过预先定义的奖励函数,RL代理能够挑选出最强的,并过滤掉类似或不相关的。
将RL应用于KG推理的一个主要挑战是大的动作空间。我们通过在奖励再培训步骤之前应用监督学习来解决这个问题。为了显示监督训练的效果,我们评估了不同训练次数的agent在10步内达到目标的成功率。对于每个训练集,使用训练集中的一对实体 ( e s o u r c e , e t a r g e t ) (e_{source}, e_{target}) (esource,etarget)来寻找路径。所有连接实体的正确路径将获得+1全局奖励。然后我们插入一些真正的训练路径。succ10是在由100个实体对组成的保留测试集上计算出来的。对于NELL995数据集,由于我们有200个惟一关系,在添加逆向关系操作后,操作空间的维度将是400。这意味着随机游走将变得非常低,因为可能有将近 40 0 10 400^{10} 40010条无效路径。图三展示训练中的succ10。
我们看到,即使智能体以前没有见过实体,它实际上可以选择有希望的关系来扩展它的路径。这也验证了状态表示的有效性。
~~~~~~~ 在本文中,我们提出了一个强化学习框架来提高KGs中关系推理的性能,具体来说,我们训练了一个RL agent来查找知识库中的推理路径。与之前基于随机行走的寻径模型不同,RL模型允许我们控制所找到路径的属性。在许多基于路径的推理方法中,这些有效路径也可以作为PRA的替代方案。对于两个标准推理任务,使用RL路径作为推理公式,我们的方法通常优于两类基线。
~~~~~~~ 在未来的研究中,我们计划研究引入对抗学习(Goodfellow et al.,2014)的可能性,以提供比本研究中使用的人类定义的奖励功能更好的奖励。不再根据路径特征来设计奖励,而是训练一个判别模型来给予奖励。此外,为了解决KG没有足够的推理路径时的问题场景,我们有兴趣将我们的RL框架应用到使用KG三元组和文本提及的联合推理。