点击上方,选择星标,每天给你送干货!
来自:机器学习与自然语言处理
本文介绍一篇基于生成式的图谱预训练模型GPT-GNN(KDD 2020),介绍GPT-GNN模型核心点和模型思路,完整汇报ppt获取请关注公众号回复关键字:GPT-GNN
BACKGROUND
Background1、GPT/GPT2.0:GPT和GPT2.0是自然语言处理领域的生成式训练模型,预训练阶段通过大量预料进行无监督学习,预训练任务是单项语言模型,特征提取器用的是Transformer,预训练模型取自Transformer的Decoder阶段,使用了Masked Multi-Head Attention。本文GPT-GNN模型即受NLP中GPT模型启发,GPT-GNN模型是基于知识图谱的生成式预训练模型。
Background2、图谱预训练作用:图神经网络(GNNs)已被证明是建模图结构数据的强大工具。然而,训练GNN模型通常需要大量的特定任务的标记数据,而获取这些数据往往非常昂贵。利用自监督GNN模型对未标记图谱数据进行预训练是减少标记工作的一种有效方法,然后将预训练学习到的模型可用在只有少量标签图谱数据的下游任务。
Background3、大规模图谱预训练:大规模知识图谱预训练方案都需要遵守以下几个套路:首先需要进行子图采样,使用子图进行模型训练;其次采用自监督学习模式,Mask图中的节点或边然后进行训练;计算Loss时需要进行负采样,图规模大无法基于全部负样例。
GPT-GNN METHOD
GPT-GNN模型首先是自监督的生成式的预训练框架,通过预训练捕捉图谱固有的内在的Structural and Semantic等属性信息,可以对各种下游任务起到有效提升作用。
GPT-GNN模型训练通过两个生成任务:Attribute Generation和Edge Generation,并且构建Node Attributes和Graph Structure之间的相互依赖关系,捕捉隐含的特征信息。结构图如下所示:
问题1:预训练任务定义
两个生成任务实现思路Attribute Generation、Edge Generation:先给图中节点和边编号,通过已知X和E预测未知X和E,目的就是通过预训练最大化Graph Likelihood。例如在step i时,利用step i之前已经生成的X_(
生成任务便归纳为最大化logp_θ (X,E),接下来如何建立条件概率模型,最简单的一种方式便是认为生成X_i和生成E_i是相互独立的,即简化为如下公式:
但显然这样就完全忽略了Attribute和Edge之间的依赖,而图谱预训练模型最主要的便是要学习Node Attributes和Graph Structure之间的潜在依赖。于是文中提出交替预测,即用观测到的Edge预测未知的Attribute,用观测到的Attribute预测未知的Edge,这样便可以学习到节点属性和图结构之间的潜在依赖。公式如下:
问题2:Information Leakage问题解决方案
为了提高模型的训练效率,希望对输入的图只运行一次图模型即可同时对Attribute和Edge进行生成。但这样会存在一个信息泄露的问题,因为Edge Generation时需要节点Attribute作为输入,但这样就可能把节点Attribute泄露给Attribute Generation任务。因为本文将任务每个节点的任务拆成两个,即之前提到的Node Attribute Generation和Edge Generation两个任务,两个任务分开来训练。因为是自监督学习,需要对Attribute和Edge进行Mask,然后模型任务预测Mask的Attribute和Edge。
1、Attribute Generation任务:损失函数Distance定义?如果是文本可以使用困惑度,如果是向量可直接用L2-Distance。
2、Edge Generation任务:首先假设Edge之间是相互独立的,因此可将似然函数写成如下公式:
损失函数使用的是Negative Contrastive Loss,具体计算如下公式所示:
问题3:GPT-GNN for Heterogeneous Graph
异质图是指图中包含多类型关系和节点,GPT-GNN模型可以直接使用,唯一需要注意的是每种类型的节点和边都可能有自己的解码器。
问题4:GPT-GNN for Large-ScaleGraphs
1、Sub-Graph Sampling:针对于Large-Scale Graphs必须需要进行子图采样,提供了两种采样方式LADIES算法和HGSampling算法,HGSampling是LADIES异质图的版本;
2、Adaptive Queue :负采样时使用了Adaptive Queue,保证负采样时可以取到Global的负样本,而不局限于Local负采样,具体实现方式是保存一个存储Node Embedding的队列,每处理一个新的子图时,通过添加最新的节点表示并删除最旧的节点表示来逐步更新这个队列,这样便可以保证负采样时不仅仅只利用本子图的样例,可以看到全局的样本信息。
GPT-GNN CONCLUSION
结论:在10亿规模的开放学术图OAG和亚马逊Amazon数据上的综合实验表明,GPT-GNN模型在不同下游任务中显著优于最先进的没有经过预训练的GNN模型,最高可达9.1%。
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
专辑 | 情感分析
整理不易,还望给个在看!