一、主要贡献
1、提出了一种基于新出现事实的随时间演化的深度学习架构。动态进化网络将吸收新的事实,从中学习,并基于它们最近的关系和时间行为更新相关实体的嵌入。
2、除了预测事实的发生,我们的架构还能预测事实可能发生的时间,这是任何先前的关系学习方法都不能做到的。
3、模型支持开放世界假设,缺失的链接不被认为是错误的,而是可能在未来潜在地发生,由于其新颖的动态嵌入过程,它进一步支持对看不见的实体的预测。
二、时间点过程
给定所有时间t之前发生的事件的条件下,当前时刻发生事件的可能性。
给定t之前所有的历史事件的前提条件下,在[t,t+dt)窗口内观察到一个事件的条件概率。
其中,N(t)是在时间t之前记录的事件的发生的数量。,假设dt很小很小的时候,那么dN(t)只有两种可能:0或1。
同时在给定时间{t1.....tn}的情况下,对于任意的t>tn,在[tn,t)之间没有事件发生的条件概率为: 该项称为生存概率。
所以最终,一个事件在t时刻发生的概率为f(t):
也就是说:一个事件在已知之前时间t1,,,,,tn所发生事件的情况下,在t时刻发生的概率等于在[tn,t)区间内无事发生的概率乘上该事件本身在t时刻会发生的概率。
其中, 的设计取决于所选择的随机过程:比如Poisson Process,Hawkes process,Self-Correcting Process,Power Law 和 Rayleigh Process。
本文采用的是Rayleigh Process:即,以这样的形式表示:
= 其中>0,是个权重参数。 则根据上述的求生存概率的公式,可得
本文的中心思想,是想用深度学习模型参数来拟合
三、进化知识网络
该网络主要由三个组件组成:
一个强有力的数学工具——时间点过程,可以建模一个事件的发生。
一个双线性关系评分机制,能够捕捉到实体之间的多关系交互,并调节上述点过程的密度函数。
一种新的深度递归网络,基于实体在多关系空间中随时间推移与其他实体的交互来学习实体的非线性和相互进化的潜在表示。
3.1时间过程
给定,( ,r,)其在t时刻发生的概率为:
其中, = 是指在时间t之前,主语或宾语实体参与到事件中的最近的时间点。f函数是指数函数。
g是聚合函数,其计算方式见3.2
3.2关系评分函数
该公式的意思是:分别取主语实体和宾语实体在t时刻前,最新更新过的嵌入向量。是d*d维的,即每一个关系r都对应一个关系矩阵。将它们乘起来。
这样能够捕获在影响实体嵌入的历史事件中积累的关于实体的知识。
3.3动态进化实体表示
上图都是下面这两个公式的可视化表示:
(以主语嵌入的更新为例)计算tp时刻的实体的嵌入分为以下几步:
计算-,表示:实体最近的上一次参与到某个事件中的时间。时间这个数字是1维的,因此两者作差后时间差仍是1维,是d*1维,与时间差相乘后结果是d维,即实体嵌入的特征维度。是d*l维,l是隐藏层维度,隐藏层状态 的计算方法:(tp-是指在tp前的一个时间点,要与区分开,是指实体上一次参与进事件的时间。)用时刻的主语实体的嵌入,与tp-时刻的宾语实体的嵌入,和主语上一次所参与事件中的关系r的嵌入,作拼接,然后再乘上权重。实体嵌入维度都d,关系嵌入维度为c,所以三者拼接后维度是(2d+c),故的维度为l*(2d+c),所以,隐藏层的维度为l。的维度是d*l,所以×之后维度是d。再与d维的相加,最后结果是d维。(注意:代表简单的拼接操作。)
模型的设计采用了RNN的结构,其递归层使用隐藏层信息来建模实体嵌入随时间的交织演化,具体来说,这一层有两个主要组成部分:
第一项捕获每个实体的相应维度上的连续事件之间的时间差。如果实体经历了不同事件,那么可以使它们的特征平滑地随时间变化。如果一个实体在同一个时间点发生了多个事件,那么这一项将不起作用。然而-可能会表现出较大的变化,但相应的权重参数将会捕捉到这些变化,并于第二个项一起,防止崩溃。
主客体实体的潜在特征相互影响。在多关系设置中,这进一步受到它们形成的关系的影响。对嵌入了来自隐藏层的信息的实体的循环更新允许捕捉一个实体相对于其自身和特定关系空间中的另一个实体的复杂的非线性和动态进化。
整个模型的参数空间:
是计算时才用到的,是实体的动态嵌入过程中,r对应的参数矩阵,若关系数量为n,则应是n*c维的。两者不同。
四、训练过程
最小化损失函数: