知识图谱作为一种结构化的知识形式,受到了学术界和工业界的广泛关注,是人工智能的研究方向之一。近年来,知识表示与推理受到人类问题求解的启发,将知识表示为智能系统,以获得解决复杂任务的能力。知识图谱包含数万甚至上亿的事实,如Freebase[1]、DBpedia[2]和YAGO[3],描述整个图谱,通常以以下形式进行定义: ( E , R , O ) (E,R,O) (E,R,O),其中, E E E 是实体集合, R R R 是关系集合, O O O 是观察到事实的三元组集合,每个三元组以 ( h , r , t ) (h,r,t) (h,r,t)形式来描述, h h h 是头实体, r r r 是尾实体, t t t 是连接关系。实体是真实世界的对象和抽象概念,关系表示实体之间的语义联系,例如三元组(姚明,出生于,中国)。“姚明”、“中国”分别是头实体和尾实体,“出生于”是连接头尾实体的关系。
知识图谱表示学习致力于解决三元组的底层符号的表示问题,基于分布式表示的方法将知识图谱中的实体和关系映射到低维连续向量空间中,以此学习实体或关系的连续特征,同时,研究者们对嵌入空间和模型构建展开了火热的研究。
转移距离模型的得分函数是基于距离的衡量,代表模型为Trans系列,以如下符号化的公式表示此类模型的得分函数:
f r ( h , t ) = ∣ ∣ S r ( h ) + r − S r ( t ) ∣ ∣ l 1 / l 2 f_r(h,t)=||S_r(\textbf{h})+\textbf{r}-S_r(\textbf{t})||_{l1/l2} fr(h,t)=∣∣Sr(h)+r−Sr(t)∣∣l1/l2
其中,函数 f r ( h , t ) f_r(h,t) fr(h,t)代表了三元组 ( h , r , t ) (h,r,t) (h,r,t)的得分;相应的黑体 ( h , r , t ) (\textbf{h},\textbf{r},\textbf{t}) (h,r,t)代表了嵌入向量表示; S r ( ⋅ ) S_r(·) Sr(⋅)定义了线性函数,将实体嵌入向量映射到关系驱动的向量空间;通常来说,以 l 1 l1 l1距离和 l 2 l2 l2距离衡量头实体到尾实体之间的距离。
基于转移距离模型,最初的算法是Bordes等人提出的表示模型TransE[4],并掀起了翻译模型系列的研究高潮,TransE将实体和关系嵌入到欧式空间中,其基本思想是,如果三元组 ( h , r , t ) (h,r,t) (h,r,t)成立,头实体向量 h \textbf{h} h与关系向量 r \textbf{r} r的加和与尾实体向量 t \textbf{t} t相近,否则远离。那么有 S r ( h ) = h S_r(\textbf{h})=\textbf{h} Sr(h)=h, S r ( t ) = t S_r(\textbf{t})=\textbf{t} Sr(t)=t 。TransE模型构建简单,参数量少,计算效率高,但是简单性限制了模型的表达能力。TransE不能很好地解决一对多,多对一,多对多关系,例如对于三元组(姚明,生活于,中国)和(姚明,生活于,北京)都是真实的,那么通过得分函数,会得到实体“中国”和“北京”相近的向量表示,这种一对多关系不利于知识图谱整体的表示学习。针对TransE模型的表达能力问题, TransH[5],TransR[6],TransD[7]从不同角度出发解决一对多,多对一和多对多问题。
TransH[5]为每个关系引入了一个超平面,针对关系三元组,将实体和关系映射到此关系驱动的表示空间,来解决复杂关系问题,将关系 r r r的法向量定义为 w r w_r wr,线性函数 S r ( e ) = e − w r ⊤ e w r S_{r}(\boldsymbol{e})=\boldsymbol{e}-\boldsymbol{w}_{r}^{\top} \boldsymbol{e} \boldsymbol{w}_{\boldsymbol{r}} Sr(e)=e−wr⊤ewr 。TransR[6]提出了关系驱动的投影矩阵 M r M_r Mr,通过与实体嵌入向量相乘的方式将实体向量投影到关系空间: S r ( e ) = M r e S_r(e)=M_re Sr(e)=Mre 。但是TransR的投影矩阵参数量大,计算效率低,TransD[7]以动态的方式构建投影矩阵 M r e M_{re} Mre,并且投影矩阵与三元组中的实体和关系相关,而不单纯的依赖关系: S r ( e ) = M r e e S_r(e)=M_{re}e Sr(e)=Mree,其中 M r e = w r w e ⊤ + I M_{r e}=\boldsymbol{w}_{r} \boldsymbol{w}_{e}^{\top}+\mathbf{I} Mre=wrwe⊤+I, I \mathbf{I} I为单位矩阵, w e w_e we和 w r w_r wr分别与实体和关系对应。
此外,基于不同考虑的Trans系列模型同样具有广泛的研究价值,TranSparse[8]利用数字空间来解决知识图谱的异质性和不平衡性问题;TransM[9]关注于知识图谱的结构,通过预先统计训练集中每个关系的权重 θ r \theta_r θr构建模型: f r ( h , t ) = − θ r ∥ h + r − t ∥ l 1 / l 2 f_{r}(h, t)=-\theta_{r}\|\boldsymbol{h}+\boldsymbol{r}-\boldsymbol{t}\|_{l 1 / l 2} fr(h,t)=−θr∥h+r−t∥l1/l2;TransAP[10]从得分函数出发,认为仅仅考虑距离驱动的得分函数过于单调,并且不能解决图谱中的圆形结构和层次结构,因此引入了位置驱动的实体嵌入机制和注意力机制来捕获三元组的不同语义。
最近,RotatE[11]和QuatE[12]在复数空间建模三元组,学习丰富的信息特征表示。RotatE[11]的动机来源于欧拉恒等式: e i θ = cos θ + i sin θ e^{i \theta}=\cos \theta+i \sin \theta eiθ=cosθ+isinθ,这表明一个酉复数可以看做复数平面上的旋转,具体来说,RotatE模型将实体和关系映射到复向量空间,并将每个关系定义为从源实体到目标实体的旋转,得分函数定义为 f r ( h , t ) = − ∥ h ∘ r − t ∥ l 1 f_{r}(h, t)=-\|\boldsymbol{h} \circ \boldsymbol{r}-\boldsymbol{t}\|_{l 1} fr(h,t)=−∥h∘r−t∥l1,其中符号 ∘ \circ ∘为哈德曼积,定义了头实体与关系的旋转操作,RotatE期望等式 h ∘ r = t \boldsymbol{h} \circ\boldsymbol{r}=\boldsymbol{t} h∘r=t成立。QuatE[12]将嵌入空间拓展到了四元数空间,四元数空间属于复数系统,向量由一个实部和三个虚部四部分组成,QuatE延续了RotatE的思想,将关系视为源实体到目标实体的旋转,得分函数为: f r ( h , t ) = h ⊗ r ⋅ t f_{r}(h, t)=\boldsymbol{h} \otimes \boldsymbol{r} \cdot \boldsymbol{t} fr(h,t)=h⊗r⋅t, ⊗ \otimes ⊗定义了四元数空间的哈密尔顿乘积, ⋅ \cdot ⋅为点积操作,衡量旋转后的头实体向量与尾实体向量之间的相似度。
语义匹配模型注重挖掘向量化后的实体和关系间潜在的语义关联,评分函数反映了三元组语义信息的置信度。
RESCAL[13]优化了一个包含头尾实体与满秩关系矩阵的双线性乘积的评分函数。虽然RESCAL是一个非常有表现力和功能强大的模型,但由于其大量的参数,容易出现过拟合,随着知识图中关系的数量,其嵌入维数呈二次增长。
DistMult[14]是RESCAL的一种特殊情况,每个关系都有一个对角矩阵,这种方式一定程度上减少了过拟合。然而,在DistMult中对实体嵌入向量进行的线性变换被限制在一个拉伸范围内。DistMult学习的二元张量在主客体实体模式下是对称的,因此DistMult不能模拟非对称关系。
ComplEx[15]将DistMult扩展到复数域。同一实体的主体和客体实体嵌入是复数共轭的,这将不对称引入到张量分解中,从而使复杂性能够建模不对称关系。
SimplE[16]模型基于Canonical Polyadic (CP) 分解,DistMult是CP的一个特殊情况)。其中,实体嵌入与位置相关,同一实体的头尾嵌入是独立的,SimplE模型的评分函数改变CP,通过计算两项的平均值,使主客体实体嵌入向量相互依赖,第一项是头实体嵌入、关系嵌入和尾实体嵌入的双线性乘积,第二项是头实体嵌入、反向关系嵌入和尾实体嵌入的双线性乘积。
本质上,转移距离模型仅通过简单的减法或乘法运算获得浅层的线性特征。近几年,基于卷积神经网络的知识推理逐渐兴起,将嵌入向量重塑为嵌入矩阵架起了CNN与知识图谱之间的桥梁,下面将叙述以CovnE为首的卷积神经网络推理模型。
ConvE[17]通过简单的二维卷积嵌入去预测连接关系,模型首先对头实体和关系嵌入向量进行全局二维卷积运算,将它们重塑为矩阵并连接起来,然后将得到的矩阵作为卷积层的输入,得到的特征映射被平铺化,通过线性层头烧到K维空间中,最后并与所有对象实体向量的内积为每个三元组生成一个分数。虽然ConvE取得的结果令人印象深刻,但它对向量的重塑和连接以及在单词嵌入上使用2D卷积是不直观的。
ConvKB[18]是基于ConvE模型的简单改进,在ConvKB中,每个三元组(头实体、关系、尾实体)都表示为一个3列矩阵,其中每个列向量表示一个三元组元素。然后,这个三列矩阵被送入卷积层,在卷积层中,多个滤波器对矩阵进行操作,以生成不同的特征映射。
HypER[19]是一个简化的卷积模型,针对每个关系,使用超网络生成一维卷积过滤器,从头实体嵌入向量中提取关系驱动的特征。作者证明卷积是一种引入稀疏性和参数捆绑的方法,而HypER可以从张量分解的角度理解到非线性,从而使HypER更接近于已建立的分解模型族。HypER的缺点是它将核心权值张量的大多数元素设置为0,这相当于硬正则化,而不是让模型通过软正则化来学习使用哪些参数。
CoPER[20]认为之前基于CNN的模型不能处理为每个关系使用不同的源实体投影的情况,因此,CoPER使用上下文参数来解决这个限制。具体地,将关系视为处理源实体以产生预测的上下文,通过使用关系嵌入来生成在源实体嵌入上操作的模型参数。
InteractE[21]认为ConvE头实体与关系向量简单的拼接方式限制了模型的特征捕获能力,为解决这一问题,InteractE提出了三种关键的特征捕获方法:特征排序、新型的特征重塑方法和循环卷积。特征排序不是使用一个固定的输入顺序,而是利用多种排列来捕捉更多可能的交互;特征重塑不是简单的拼接,而是以多种方式(堆叠、交替和方格)重塑特征;与标准卷积相比,循环卷积允许捕获更多的特性交互。
基于神经网络的推理模型根据子图结构建模知识图谱中的事实三元组,实体节点通过卷积周围节点丰富自身的表示特征。
R-GCN[22]是最早将图神经网络应用在知识图谱补全任务上的方法,R-GCN引入了一个关系图卷积网络,该网络产生对位置敏感的嵌入,然后将其传递给解码器,以预测KG中缺失的链接。需要注意的是,简单的GCN不能用于嵌入KGs,因为它忽略了图中的边缘标签,因此,R-GCN稍微修改了简单GCN的评分函数,以捕获边缘之间的关系。
SACN[23]从关系类型出发,通过聚合节点的邻域聚合信息,来扩展之前的工作,这被称为加权图卷积网络(WGCN)。在WGCN中,整个图被分解成子图,每个子图只包含一种关系类型的边,然后将GCN应用于每个子图上。
在链接预测任务中,图卷积网络通常作为模型中的编码器,随后融合其他的模型完成任务。TransGCN[24]将翻译系列模型的思想引入到了GCN中,提出了TransGCN,综合了TransE模型和图神经网络的优点,考虑到知识图谱中的关系具有不同种类的特点,关系图卷积网络(R-GCN)使用关系特定的变换矩阵扩展了GCN,并且为了缓解由于关系种类过于丰富而导致的参数量巨大的问题,提出了基分解和块对角分解两种正则化策略。
与以上研究不同的是,滨口(Hamaguchi)等人[25]提出使用图神经网络利用邻实体和对应的关系获得新实体的表示,并针对知识图谱的特点,为图神经网络提出了新的传播模型;Wang等人[26]进一步改进了传播模型,即逻辑注意力网络(Logic Attention Network,LAN),以考虑实体邻域的无序性和不平等性质,从而更好地学习实体和对应的邻实体之间的关系。GENI(GNN for Estimating Node Importance)[27]为了估计知识图谱中实体的重要性,提出了邻实体的重要性分数(而不是邻居实体的特征)对中心实体的重要性评估起主要作用的观点,因此设计了预测感知的注意力机制和灵活的中心性调整策略,使重要性分数进行传播,而非实体表示。
四元数属于超复数系统,最早由Hamilton[28]提出,其应用范围广泛,包括航天、机器人、计算机可视化、电影中的动画和特效以及导航。近年来,四元数在机器学习领域引起了人们的关注。
在语音识别任务上与传统的RNNs模型相比,四元数递归神经网络(QRNNs)[32]以更少的参数获得了较好的性能,四元数表示也有助于增强卷积神经网络在多个任务上的性能,如自动语音识别[29]和图像分类[30] [31];四元数多层感知机和四元数自编码也优于标准MLP和自编码;同样的,四元数也应用在了推荐系统任务[33]上。简而言之,这些模型背后的主要动机是四元数使神经网络能够编码多维输入特征之间潜在的相互依赖和内部依赖,从而导致更紧凑的交互能力和更好的表示能力。
最近,四元数空间向量表示也应用到了知识推理任务中,例如QuatE[12],Rotate3D[34],QuatE用哈密尔顿积运算作为旋转的运算,可以推理多种关系模式,如对称/反对称关系、反向关系和组合关系;而Rotate3D[34]是以四元数表示完成三维空间的旋转操作,将实体映射到三维空间,并定义了从头部实体到尾部实体的旋转关系。Rotate3D利用三维空间中旋转的非交换复合特性,可以自然地保持组合关系的顺序。基于四元数空间的推理技术尚不成熟,有待深入研究。
[1] K. Bollacker, C. Evans, P. Paritosh, T. Sturge, and J. Taylor,“Freebase: A collaboratively created graph database for structuring human knowledge,” in Proc. ACM SIGMOD Int. Conf. Manage. Data, 2008, pp. 1247–1250.
[2] J. Lehmann, et al., “DBpedia: A large-scale, multilingual knowledge base extracted from Wikipedia,” Semantic Web J., vol. 6,no. 2, pp. 167–195, 2015.S.
[3] F. M. Suchanek, G. Kasneci, and G. Weikum, “YAGO: A core of semantic knowledge,” in Proc. 16th Int. Conf. World Wide Web,2007, pp. 697–706.
[4] Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. Advances in neural information processing systems, 26, 2787-2795.
[5] Wang, Z., Zhang, J., Feng, J., & Chen, Z. (2014, June). Knowledge graph embedding by translating on hyperplanes. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 28, No. 1).
[6] Lin, Y., Liu, Z., Sun, M., Liu, Y., & Zhu, X. (2015, February). Learning entity and relation embeddings for knowledge graph completion. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 29, No. 1).
[7] Ji, G., He, S., Xu, L., Liu, K., & Zhao, J. (2015, July). Knowledge graph embedding via dynamic mapping matrix. In Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing (volume 1: Long papers) (pp. 687-696).
[8] Ji, G., Liu, K., He, S., & Zhao, J. (2016, February). Knowledge graph completion with adaptive sparse transfer matrix. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 30, No. 1).
[9] Fan, M., Zhou, Q., Chang, E., & Zheng, F. (2014, December). Transition-based knowledge graph embedding with relational mapping properties. In Proceedings of the 28th Pacific Asia Conference on Language, Information and Computing (pp. 328-337).
[10] Zhang, S., Sun, Z., & Zhang, W. (2020). Improve the translational distance models for knowledge graph embedding. Journal of Intelligent Information Systems, 1-23.
[11] Sun, Z., Deng, Z. H., Nie, J. Y., & Tang, J. (2019). Rotate: Knowledge graph embedding by relational rotation in complex space. arXiv preprint arXiv:1902.10197.
[12] Zhang, S., Tay, Y., Yao, L., & Liu, Q. (2019). Quaternion knowledge graph embeddings. In Advances in Neural Information Processing Systems (pp. 2735-2745).
[13] Nickel, M., Tresp, V., & Kriegel, H. P. (2011, June). A three-way model for collective learning on multi-relational data. In Icml (Vol. 11, pp. 809-816).
[14] Yang, B., Yih, W. T., He, X., Gao, J., & Deng, L. (2014). Embedding entities and relations for learning and inference in knowledge bases. arXiv preprint arXiv:1412.6575.
[15] Trouillon, T., Welbl, J., Riedel, S., Gaussier, É., & Bouchard, G. (2016). Complex embeddings for simple link prediction. International Conference on Machine Learning (ICML).
[16] Kazemi, S. M., & Poole, D. (2018). Simple embedding for link prediction in knowledge graphs. In Advances in neural information processing systems (pp. 4284-4295).
[17] Dettmers, T., Minervini, P., Stenetorp, P., & Riedel, S. (2018, April). Convolutional 2d knowledge graph embeddings. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).
[18] Nguyen, D. Q., Nguyen, T. D., Nguyen, D. Q., & Phung, D. (2017). A novel embedding model for knowledge base completion based on convolutional neural network. arXiv preprint arXiv:1712.02121.
[19] Balažević, I., Allen, C., & Hospedales, T. M. (2019, September). Hypernetwork knowledge graph embeddings. In International Conference on Artificial Neural Networks (pp. 553-565). Springer, Cham.
[20] Stoica, G., Stretcu, O., Platanios, E. A., Mitchell, T., & Póczos, B. (2020, April). Contextual Parameter Generation for Knowledge Graph Link Prediction. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 34, No. 03, pp. 3000-3008).
[21] Vashishth, S., Sanyal, S., Nitin, V., Agrawal, N., & Talukdar, P. P. (2020). InteractE: Improving Convolution-Based Knowledge Graph Embeddings by Increasing Feature Interactions. In AAAI (pp. 3009-3016).
[22] Schlichtkrull, M., Kipf, T. N., Bloem, P., Van Den Berg, R., Titov, I., & Welling, M. (2018, June). Modeling relational data with graph convolutional networks. In European Semantic Web Conference (pp. 593-607). Springer, Cham.
[23] Shang, C., Tang, Y., Huang, J., Bi, J., He, X., & Zhou, B. (2019, July). End-to-end structure-aware convolutional networks for knowledge base completion. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 3060-3067).
[24] Cai, L., Yan, B., Mai, G., Janowicz, K., & Zhu, R. (2019, September). TransGCN: Coupling transformation assumptions with graph convolutional networks for link prediction. In Proceedings of the 10th International Conference on Knowledge Capture (pp. 131-138).
[25] Hamaguchi, T., Oiwa, H., Shimbo, M., & Matsumoto, Y. (2017). Knowledge transfer for out-of-knowledge-base entities: A graph neural network approach. arXiv preprint arXiv:1706.05674.
[26] Wang, P., Han, J., Li, C., & Pan, R. (2019, July). Logic attention based neighborhood aggregation for inductive knowledge graph embedding. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, pp. 7152-7159).
[27] Park, N., Kan, A., Dong, X. L., Zhao, T., & Faloutsos, C. (2019, July). Estimating node importance in knowledge graphs using graph neural networks. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 596-606).
[28] Hamilton, W. R. (1844). LXXVIII. On quaternions; or on a new system of imaginaries in Algebra: To the editors of the Philosophical Magazine and Journal. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 25(169), 489-495.
[29] Parcollet, T., Zhang, Y., Morchid, M., Trabelsi, C., Linarès, G., De Mori, R., & Bengio, Y. (2018). Quaternion convolutional neural networks for end-to-end automatic speech recognition. arXiv preprint arXiv:1806.07789.
[30] Parcollet, T., Morchid, M., & Linarès, G. (2017, August). Quaternion denoising encoder-decoder for theme identification of telephone conversations.
[31] Parcollet, T., Morchid, M., & Linarès, G. (2019, May). Quaternion convolutional neural networks for heterogeneous image processing. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 8514-8518). IEEE.
[32] Parcollet, T., Ravanelli, M., Morchid, M., Linarès, G., Trabelsi, C., De Mori, R., & Bengio, Y. (2018). Quaternion recurrent neural networks. arXiv preprint arXiv:1806.04418.
[33] Zhang, S., Yao, L., Tran, L. V., Zhang, A., & Tay, Y. (2019). Quaternion collaborative filtering for recommendation. arXiv preprint arXiv:1906.02594.
[34] Gao, C., Sun, C., Shan, L., Lin, L., & Wang, M. (2020, October). Rotate3D: Representing Relations as Rotations in Three-Dimensional Space for Knowledge Graph Embedding. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management (pp. 385-394).