Be More with Less: Hypergraph Attention Networks for Inductive Text Classification

之前文章存在的问题



为了解决这些问题,本文提出了一个原则性的模型——超图注意力网络(HyperGAT),该模型可以用更少的计算量获得更强的表达能力,用于文本表示学习。在各种基准数据集上的大量实验证明了该方法在文本分类任务中的有效性。

Abstract

从本质上说,以前那些baseline方法的突破性成就是因为它们具有从局部连续单词序列中获取连续上下文信息的强大能力。
之前基于GCN的文本分类主要有以下两个方面的限制:

  1. 表达能力。现有的基于GNN的方法主要关注单词之间的成对交互(即二元关系)。然而,在自然语言中,文字之间的关系并不只是二元的,而是可以是三元的、四元的或更高阶的。例如,“eat humble pie(低头谢罪)”这个成语,它的意思是在一般用法中“承认自己错了”。如果我们用一个简单的图表来模拟单词之间的相互作用,基于pie和另外两个单词(humble - pie和eat - pie)之间的成对联系,GNN可能会将pie这个词误解为“烤盘”,进而进一步误解整个习语的实际含义。因此,如何超越成对的单词关系,进一步捕捉更高阶单词交互,对于高质量的文本表示学习至关重要,但仍有待探索
  2. 计算消耗。一方面,由于在全局文档-单词图上构建和学习会消耗大量内存(Huang et al., 2019),当数据规模增大时,GNN主干的大部分工作往往是内存效率低的。另一方面,在训练期间对测试文档的强制访问使得这些方法在本质上具有可移植性。
一个关键的研究问题是“用更少的计算消耗获得更多的表达能力是否可行?”

为了实现这一目标,我们建议采用文档级超图(超图是简单图的推广,其中超边可以连接任意数量的节点)来建模每个文本文档。文档级超图的使用潜在地使得学习模型不仅能够减轻计算效率低下的问题,而且更显著地,能够捕获每个单词的异构(例如,顺序的和语义的)高阶上下文信息。因此,在文本表示学习过程中,可以用较少的计算消耗获得更多的表达能力。由于传统的GNN模型不适用于超图,为了弥补这一缺陷,我们提出了一种新的超图模型,它能够捕捉每个超图中编码的高阶词的相互作用。同时,它内部的双重注意机制突出了学习高表达文本表征的关键语境信息。总而言之,我们的贡献有三个方面:

  1. 我们使用文档级超图对文本文档进行建模,这提高了模型的表达能力并降低了计算消耗。
  2. 提出了一个基于双重注意机制的原则模型超图,以支持文本超图的表征学习。
  3. 我们在多个基准数据集上进行了大量实验,以说明超图测试在文本分类任务上优于其他最先进的方法

Method

一般来说,大多数流行的GNN模型遵循邻域聚集策略,其定义为


一般GNN模型邻域聚合公式

AGGR是GNNs的聚合函数,有一系列不同的实现方法

由于能够捕捉实体之间的长距离交互,GNNs在文本分类方面也表现出了良好的性能。目前流行的方法是建立一个语料库级的文档-词图,并尝试通过半监督节点分类对文档进行分类。尽管他们取得了成功,但大多数现有的努力都存在计算效率低下的问题,这不仅是因为测试文档在训练中强制要求存在,还因为语料库级文档单词图的构建。与此同时,这些方法在很大程度上受到使用简单图形来建模单词交互的可表达性的限制。因此,如何以更少的计算消耗提高模型表达能力是一个具有挑战性和迫切性的课题

image.png

为了简单起见,可以进一步用G = (A,X)来表示整个超图,X为每个顶点的特征向量可以用one-hot向量或预先训练的单词嵌入(word2vec, GloVe)

顺序Hyperedges(超边)。。序列上下文描述了单词之间局部共现的语言特性,它在文本表示学习中的有效性也已经被证明是有效的。为了利用每个单词的顺序上下文信息,我们首先为语料库中的每个文档构造顺序Hyperedges。一种自然的方法是采用固定大小的滑动窗口来获得全局词共现作为序列上下文。受分层注意网络成功的启发,这里将每个句子视为一个Hyperedges,它连接了这个句子中的所有单词。另一个好处是,使用句子作为连续Hyperedges,使我们的模型能够同时捕获文档结构信息。

语义Hyperedges。此外,为了丰富每个单词的语义上下文,我们构建语义Hyperedges来捕获单词之间与主题相关的高阶相关性。具体来说,我们首先使用LDA从文本文档中挖掘潜在主题T ,每个主题T=(t1,t2,…,tw) (w表示词汇量)可以用单词的概率分布表示。然后,对于每个主题,我们将其视为一个语义Hyperedges,它将文档中概率最大的K个单词连接起来。有了这些与主题相关的Hyperedges,我们就能够丰富每个文档中单词的高阶语义上下文。值得一提的是,虽然我们在本研究中只讨论了顺序超边和语义超边,但其他有意义的Hyperedges(如与语法相关的Hyperedges)也可以集成到所提模型中,以进一步提高模型的表现力。

模型结构

为了支持在构建的文本超图上进行文本表示学习,作者提出了一个名为HyperGAT的新模型(如下图所示)。除了传统的GNN模型,HyperGAT使用两种不同的聚合函数学习节点表示,允许在文本超图上捕获单词的异构高阶上下文信息

HyperGAT

一般来说,HyperGAT层可以定义为:


HyperGAT层

εi为边的集合,ej为边,vk为顶点,h为第顶点表示,f为边的表示

Node-level Attention

uk可以看做attention中的key,αjk 为attention weight

Node-level Attention

Edge-level Attention

与Node-level Attention计算相似


Edge-level Attention

使用双重注意机制使得超图测试层不仅能够捕捉高阶词的交互,而且能够在节点特征学习过程中突出不同粒度的关键信息

然后,我们对所学习到的节点表示应用平均池操作以获得文档表示Z



最后最小化一个交叉熵函数


你可能感兴趣的:(Be More with Less: Hypergraph Attention Networks for Inductive Text Classification)