背景: 近年来,文本属性图(TAG)的表示学习已成为一个关键的研究问题。一个典型的案例是论文引用网络,其中每篇论文的文本作为节点属性,GNN将每篇论文将在这些文本属性转换为浅层特征,从而利用文本属性。
问题: 最近LLM大火,GPT和Lama2表现出推理和利用常识的能力。进一步,如何将这种文本建模能力与GNN的结构学习能力相结合成为突出性问题。
贡献: 本篇文章的工作专注于利用LLM捕获文本信息作为特征,用于提高GNN在下游任务上的性能。
创新点:
动机: 许多现实世界的图都具有文本信息,例如论文引用网络中节点可以是纯文本,例如一段话或一个单词。更一般地说,文本属性和图地拓扑结构的结合,提供了丰富的信息源,显著增强表示学习的重要应用,诸如推荐系统、文本分类等。
文本属性图的表示学习: 先前的研究主要使用浅层神经网络或者手工的方式构建特征,比如对每个节点的文本属性进行编码。 但是,这些浅层文本嵌入旨在它们可以捕获的语义特征的复杂性方面受到限制,特别是与多层语言模型的方法相比。
基于LM的TAG解决方案: 基于LM的技术可以更好地捕获TAG中文本地上下文和细微差别。流程为:预先训练LM经过微调并用于生成针对特定TAG任务定制的节点嵌入。
LLM: 以GPT为代表的大语言模型显著提高了NLP任务的性能,并实现了复杂的语言处理能力,例如复杂的零样本推理。以及,未经明确训练的新能力,例如算数、多步骤推理等。但是在TAG上的表现仍然是未知的。
LM与LLM对比:
初步研究: 为评估LLM在TAG上增强表示学习的能力,在ogbn-arxiv数据集上进行零样本分类。使用论文标题、摘要和问题组成的特定任务提示词,GPT-3.5实现了73.5%的准确率以及高质量的文本解释。
目前的工作: 引入了一种新颖的框架进行TAG上的表示学习,一个关键的创新是——将解释作为特征的概念。通过提示LLM来解释它的预测,再提取其相关的先验知识和推理步骤,使得这些信息易于较小的模型消化,类似人类专家如何使用解释来传达见解。
主要贡献:
大致意思就是图的表示学习这一块,经历了使用浅层网络来学习特征表示的过程,再到使用复杂的网络采用级联的方式来学习图的特征表示,最后到现在的使用LLM增强的方式。期间,提到之前的一篇工作【GPT4Grpah:Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking】,作者认为与之不同的是,本篇文章探索的是专属于TAG的方法。
主要定义一些概念:
文本属性图: 形式上来说,TAG是 G = ( V , A , { S n } n ∈ V ) G=(V, A, \{S_{n}\}_{n∈V}) G=(V,A,{Sn}n∈V) ,其中V代表节点,A代表邻接矩阵,S是与n个节点关联的连续文本。以 D D D 表示分词字典, L n L_{n} Ln 为序列长度,那么 S n ∈ D L n S_{n}∈D^{L_{n}} Sn∈DLn 。
用于文本分类的语言模型: 在TAG的上下文中,LM可用于对每个节点关联的文本属性进行编码并捕获文本语义的表示,相当于LM模型可以考量节点间的关联程度,以获取较好的特征。
大语言模型与提示词: LLM引入一种新的task_adaptation的范式,“预训练-提示-预测”取代了传统的“预训练-微调”的流程。在这个范式下,首先在LLM的大型文本语料库上学习,以学习通用的语言表示。然后不是使用特定场景下的微调,而是使用指定任务和上下文的自然语言提示来提示模型,并且模型直接根据提示和输入生成输出。
关键思想: 利用LLM的解释作为下游GNN的信息特征,为了实现这一目标,方法涉及三个主要步骤。1)基于LLM的预测和解释生成;2)微调LM解释器;3)训练GNN
考虑到LLM的规模,所以采用LLMaaS的方法,这意味着目标仅通过API访问LLM进行操作,使用基于文本的输入和输出,而不需要微调LLM或者访问其嵌入或者逻辑。流程如下:
原始文本与解释特征:
这一部分主要是提示LLM对它生成的解释进行排序,排序后得到的向量特征再通过下述过程形成最终的预测向量。
使用原始、专家知识、预测三类特征来进行训练,这种策略使得模型能够从不同的输入源捕获补充信息,最终提高整体模型的性能。
局限和未来工作: