【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022

论文地址:Learning on Graphs with Out-of-Distribution Nodes | Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining

代码:GitHub - SongYYYY/KDD22-OODGAT: This is the implementation of OODGAT from KDD'22: Learning on Graphs with Out-of-Distribution Nodes.

目录

摘要

1. INTRODUCTION

2. RELATED WORK

2.1 Graph Neural Network

2.2 Outlier Detection

2.3 Semi-supervised Learning With Distribution Mismatch

3 LEARNING ON GRAPHS WITH OUT-OF-DISTRIBUTION NODES

3.1 Problem Formulation

3.2 Semi-supervised Outlier Detection

 3.3 Semi-supervised Node Classification

4 OODGAT: END-TO-END MODEL FOR SSOD AND SSNC

4.1 Attention Mechanism: From Node to Edge

4.2 Regularizer

 5 EXPERIMENTS

 5.1 Experimental Setup

5.2 Main Results

 5.3 Ablation Study

6 CONCLUSION

摘要

图形神经网络(GNN)是在Graph类型的数据上执行预测任务的最新模型。虽然现有的GNN在与图相关的各种任务上表现出了出色的性能,但很少关注在训练和测试期间图中存在分布外(OOD)节点的场景。借用CV和NLP的概念,本文将OOD节点定义为具有训练集中看不到的标签的节点。由于许多网络都是由程序自动构建的,因此真实世界的图形通常含有噪声,并且可能包含未知分布的节点。在这项工作中,定义了具有分布外节点的图学习问题。目标:1)检测不属于已知分布的节点,2)将其余节点分类为已知类之一。本文证明了图中的连接模式对于异常值检测是有用的,并提出了一种新的GNN模型,即分布外图注意网络(OODGAT),它显式地模拟了不同类型节点之间的交互,并在特征传播过程中将分布内的点与分布外的点分离。大量实验表明,OODGAT在很大程度上优于现有的异常值检测方法,同时在分布内分类方面更好或可比。

1. INTRODUCTION

图形神经网络(GNN)已成为在图上执行预测任务的重要工具。在各种应用中,GNN最重要的任务之一是半监督节点分类(SSNC)。在SSNC中,GNN聚合来自相邻节点的信息,并生成在邻域内平滑的表示,从而减轻了分类的难度。

近年来,许多研究已经开始考虑现实环境中的图学习任务,例如带有标签噪声的图、低标签率和分布偏移。然而,很少有工作考虑在执行SSNC的图中存在分布外(OOD)节点的场景。通过使用术语“OOD”,借用了CV和NLP的概念,这意味着样本的标签在训练集中是看不到的。在图中,这种问题很常见,因为图通常是以增量方式构建的,其中由于与现有节点的连接而添加了新节点,在大多数情况下,无法保证所有节点都必须连接到来自同一分布的其他节点。例如,我们希望将论文网络中的论文分类为AI相关主题,例如,深度学习、强化学习和优化方法。论文网络是通过网络爬虫获得的,该爬虫采用广度优先搜索(BFS)策略,并在多次迭代中不断探索引用现有论文的论文。当搜索停止时,网络中不能保证只包含已知类别的节点,因为科学论文经常会引用其他研究领域的文章,例如,人工智能论文可能引用神经科学和数学方面的论文。在现实世界的网络中,来自不相关类别的节点的比例甚至可能高于来自感兴趣类别的节点。给定这样一个有噪声的图,我们的任务是预测与某个已知类对应的节点的标签,并识别不属于其中任何一个类的节点。

在CV和NLP中,OOD检测一直是一个历史悠久的热门研究领域。[9] 证明了神经网络倾向于为分布内(ID)样本分配比分布外(OOD)样本更高的最大softmax值,并建议使用神经网络产生的最大softmax值(MSP)作为OOD检测的分数。其他方法试图通过修改模型结构[30,34]、采用特定的不确定性度量[14]或利用标记的异常值[10]来提高检测性能。

与上述仅关注于在推理时识别OOD样本的方法不同,图中OOD节点的存在使任务更具挑战性。首先,在CV和NLP的传统设置中,离群值只出现在测试集中,而在图中,通常给定整张图进行训练,将问题从检测未知未知转移到已知未知。如何利用异常值的可用性是成功的关键。其次,CV和NLP中的分类器通常是以完全监督的方式训练的,具有丰富的标记数据,而对于图,最常见的节点分类方法是以半监督的方式用有限的标记数据训练GNN。由于GNN采用的消息传递框架,ID和OOD节点的潜在特征可能会相互影响。因此,研究分布内和分布外的点之间的信息流如何影响分布内分类和分布外检测的性能是非常重要的。[21]中也出现了类似的问题,作者研究了当标记和未标记数据来自不同分布时,半监督学习(SSL)方法的性能。然而,在基于图的SSNC领域,这一问题尚未探索。第三,由于我们的目的是在一个联合框架中解决节点分类和分布外节点检测,一个自然的问题是如何将这两个任务组合成一个统一的模型,以及如何平衡一个任务对另一个任务的影响。

在这项工作中,首先分析了OOD节点对GNN图学习任务的影响。证明对于同态性高的图,由于特征传播导致的平滑效应,基于消息传播的GNN天生就擅长检测异常值。此外,本文发现移除ID和OOD节点之间的边,同时保留每个簇内的内部边,可以获得最佳的整体性能。基于这些发现,本文提出了一种新的GNN模型——分布图外注意力网络(OODGAT),该模型利用了注意力机制,并显式地建模了ID和OOD节点之间的交互作用。实验表明,OODGAT在检测和分类方面都优于所有基线,甚至超过了直接在测试集上调整的事后检测器。

本文说是第一个用OOD节点正式定义图学习问题的人(但2020年的OpenWGL已经提出了类似的问题)。[36]考虑了类似的设置,其中图形也包含OOD节点。他们开发了一个贝叶斯框架,通过计算多个不确定性度量来检测异常值。我们的工作不同之处在于,我们从网络几何的角度分析GNN的基本优势,并利用图结构中包含的信息以高效优雅的方式解决问题。

本文的主要贡献:

  • 形式化定义了含有OOD节点的图学习问题,并明确了问题的挑战。
  • 从图形结构的角度分析了这个问题,并提出了实现良好性能的基本设计
  • 提出了一种新的GNN模型,称为OODGAT,它明确区分特征传播过程中的ID和OOD节点,并在一个联合框架中解决了节点分类和分布外检测问题
  • 对各种图数据集进行了广泛的实验,以证明该方法的有效性。

2. RELATED WORK

2.1 Graph Neural Network

图形神经网络(GNN)在与图相关的各种应用中表现出了出色的性能。在这项工作中,重点研究了半监督节点分类(SSNC)问题。在SSNC中,GNN聚合来自相邻节点的特征并生成一个潜在空间,其中节点嵌入之间的相似性对应于几何空间中节点之间的连接模式。最常用的GNN包括图卷积网络(GCN)、图注意网络(GAT)和GraphSAGE。

2.2 Outlier Detection

离群点检测,又称OOD检测,已成为各个领域的热门研究领域。根据训练期间OOD数据的可用性,OOD检测器可分为三种类型,即无监督、有监督和半监督方法。

无监督方法。无监督的方法仅利用分内布数据来训练异常值检测器。在各种技术中,最常用的包括ODIN[16]和Mahalanobis距离[14]。这些方法被称为事后检测器,因为它们假设分类网络已经在分布内的数据中进行了训练,并且检测器通过校准其输出概率或利用其潜在空间建立在预训练的分类器之上。其他方法,如[25,28,30],除了原始分类网络之外,还需要训练专门为OOD检测设计的附加模型。无监督方法在训练期间不利用大量的未标记数据,并且只能找到次优解,因为它们将分类和异常值检测视为两个独立的任务。

有监督方法。监督方法假设在训练期间可以访问一组OOD样本[8,10,13]。这样的方法使用ID训练数据上的交叉熵损失以端到端的方式训练分类器以最小化分类误差,同时使用标记的OOD数据上的置信惩罚损失以保持低预测置信度。例如,[13]将KL散度项应用于OOD样本,以确保其预测接近均匀分布。有监督检测器通常优于无监督检测器,因为它们能够利用训练OOD数据提供的分布信息。然而,OOD样本要么来自不同但相关的数据集[10],要么由GAN[18]生成,这限制了其在图领域中的应用,在图领域,人们无法找到替代OOD数据集,也无法轻松生成伪OOD数据。

半监督方法。受半监督学习的启发,最近的OOD检测研究还考虑了在训练期间未标记集合可用的情况[1,34,37]。[37]定义了一个新的任务,称为“半监督OOD检测”,其中给了一组有限的标记分布内样本和一组较大的分布内和分布外样本的混合集,其标签在训练期间无法得知。他们使用对比学习来获得未标记样本的潜在表示,并计算其与分布内数据中心的距离作为OOD分数。[1] 采用类似的设置,但解决了集成的问题。这些方法的缺点包括:1)它们不是为图设计的,因此不能利用结构信息;2) 它们通常需要训练额外的检测模型,并且不能在同一框架中处理分类和检测。

2.3 Semi-supervised Learning With Distribution Mismatch

SSL假定只能访问一小组标记数据和一大组没有标记信息的样本。Oliver等人[21]指出,当标记数据和未标记数据之间存在类分布不匹配时,现有的SSL方法往往会降低原始分类性能。在他们的发现之后,研究人员开发了对OOD样本具有鲁棒性的SSL方法,其性能至少与完全监督的学习一样好[6,12,35]。这种方法的关键思想很简单:它们试图检测和删除未标记数据的OOD部分,并仅在剩余的已纯化集上应用SSL技术。这种设置与我们的设置相似,因为他们也将问题视为两个任务,即对分布数据的半监督学习和对未标记集的异常值检测,其中每个任务都对另一个任务有影响。然而,这些方法通过将正则化项添加到原始分类损失(例如,交叉熵)来执行SSL,如VAT[20]和最小熵正则化[5],而在图域中,SSNC通常使用GNN来完成,GNN以隐式方式实现半监督学习。

3 LEARNING ON GRAPHS WITH OUT-OF-DISTRIBUTION NODES

3.1 Problem Formulation

G = (V, E),其中V表示节点集,E表示边集,邻接矩阵A\in \{0, 1\}^{|N|\times |N|。每个节点 在图中与特征向量x_v和标签y_v相对应,总体特征矩阵和类向量可以分别用Xy表示。在SSNC中,节点集可以进一步划分为V=V_l\cup V_u,其中V_l 指在训练期间标签可访问的节点集。类似地,特征矩阵和类向量可以分为X=[X_l^T,X_u^T]^T ,y=[y_l || y_u ]。SSNC的目标是,使用训练集(X_l, y_l ), 未标记的特征X_u 和图结构A,预测V中节点的标签。不同于传统的封闭世界SSNC,后者假设V中的节点V_lV_u 从相同的分布中采样,本文将问题推广到更现实的设置中,其中V_u中的节点可能来自不同于V_l中节点的分布。由于标记数据和未标记数据之间的分布偏移,类向量y_u可能包含y_l中看不到的标签, 标签空间y被放大了y=y_l\cup y_u 。本文中,标签在y_l中的节点为ID节点或正常值,标签在y_u \backslash y_l中的为OOD节点或异常值,并且称这种设定为含OOD节点的图学习,其目标为:1)将标签B=\{0,1\}分配给V_u中的节点,其中0表示ID,1表示OOD,2)对于ID的节点,进一步将它们分类为y_l中的某一类。 需要注意的是,对于这两个任务,在训练期间都会看到整个图G,这导致了一个半监督和直推式的设置。为了简单起见,在本文的剩余部分,这两个任务分别被称为半监督异常节点检测(SSOD)和半监督节点分类(SSNC)。

3.2 Semi-supervised Outlier Detection

我们是否可以利用未标记的数据X_u和图结构A,用于更好的OOD检测?

为了回答这个问题,本文首先简要回顾图上最常见的任务,即SSNC。在SSNC中,GNN用于在相邻节点之间传播信息,并产生潜在空间,其中特征相对于图结构平滑分布[15]。平滑度是可用的,因为广泛采用的同质假设,即连接的节点倾向于共享相同的标签[22]。本文认为,像SSNC一样,节点之间的连接模式也可以提供区分ID和OOD的信息。首先给出以下命题:

命题。给定图G,原始标签集Y=Y_l \cup Y_u, 以及标识标签集合B=\{0,1\}。假设:(1)存在映射f: y\mapsto B,其将y中的每个标签映射为ID或OOD;(2) G相对于y是同质的,即G中的边倾向于连接y中具有相同标签的节点。因此,G相对于B是同质的。

根据该命题,本文提出了以下假设:GNN天生适合SSOD,因为它们天生就配备了一个正则化器,该正则化器将预测的OOD分数推到紧密连接的社区内,这有助于具有高同质性的图。在图2中,左图显示了在不考虑图形结构的情况下获得的OOD分数。总体而言,OOD节点的得分高于ID节点,但由于现代神经网络的弱点,每个社区都有例外[8]。通过根据图结构平滑特征(图2b),GNN设法从其邻居恢复节点的真实分数(绿色箭头)。然而,我们也注意到连接不同类型节点的边,会导致不期望的特征聚集,并会影响内点和外点之间的分离(红色箭头)。由于类内边的数量显著超过了类间边(对于具有高同质性的图),因此整体性能应该比完全不使用结构信息要好。

为了验证该假设,使用多层感知器(MLP)和GCN作为预测因子,在Cora上进行了一项实验,并将预测的类别分布的熵计算为OOD得分。熵越高,模型越可能认为节点是OOD。两种方法的ROC曲线如图3a所示,从图中我们可以看出GCN检测器在很大程度上优于MLP检测器,这验证了图结构对于检测异常值是有用的。为了更好地理解不同类型连接的影响,测试了具有不同边子集的图的检测性能,结果如图3b所示。正如预期的那样,从图中删除类间边缘可以提高检测性能(绿线与橙线)。然而,当进一步移除ID(红线)或OOD(紫线)内部的边时,性能会急剧下降,这表明相同类型节点内的平滑度对于成功检测至关重要。

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第1张图片

 3.3 Semi-supervised Node Classification

标记和未标记数据之间的分布不匹配会影响半监督学习的性能[21]。在基于图的SSNC中,未标记的节点通过其与标记的节点的连接将其影响传递给模型参数,因此,当图中包含连接分布内和分布外点的边时,很自然会出现[21]中观察到的相同性能下降。一方面,ID和OOD数据之间的信息交换可能会向感兴趣的分布引入噪声,使模型易于过度拟合并导致较差的泛化;另一方面,添加互连可以增强图形的连接性,并有助于监控信号在节点之间的传播。此外,分布内和分布外节点之间的连接模式可以提供关于如何对ID节点进行分类的知识。因此,很难判断类间连接对SSNC是否有益。为了找出相互连接的影响,本文使用GCN作为分类器在一些常用的图数据集上进行了实验,如表1,分别在三种情况下测试了分类精度:保留所有类间边(移除=0)、随机丢弃其中一半(移除=0.5)和全部移除(移除=1.0)。

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第2张图片

4 OODGAT: END-TO-END MODEL FOR SSOD AND SSNC

4.1 Attention Mechanism: From Node to Edge

带注意的图卷积的一般形式:

 

 其中,\alpha_{ij} 是从v_jv_i聚集信息的注意力权重 。不同图注意力网络之间的差异在于注意力值的计算方式。例如,GAT[29]建议通过e_{ij}=LeakyReLU(a^T[Wh_i||Wh_j]) 计算v_iv_j之间的(未标准化的)注意力权重,其中他们使用由a参数化的单层神经网络来输出注意力权重。然而,以前的方法都没有考虑OOD节点,并且从它们的方法中获得的注意力系数不能保证包含关于如何区分分布内和分布外值的知识。

在OODGAT中,显式地对分布内和分布外之间的交互进行建模。基于第3节中的讨论,总结了注意力机制应该具有的三个属性:1)允许消息在分布内节点内部传递,2)允许消息在分布外节点内传递,3)阻止分布内和分布外节点之间的信息流。因此,提出以下注意力形式:

其中,w(i)w(j)分别是v_iv_j的注意力得分。如果考虑w (v) 作为一个为分布内和分布外值分配不同权重的二元分类器,可以发现方程(2)满足上面讨论的所有属性。在图4中对此进行了说明,不失一般性,当w_vw_{c'}都很大时,可以说w_v= w_{c'} = 1,当w_uw_c都很小时,可以说w_u=w_{c'}=0,类内边的注意力权重变为e_{cu} = e_{c'v} = 1,而类间边的权重变为e_{cv} = e_{c'u} = 0。还注意到,对于任何节点v_i, 它自身的注意力固定为e_{ii}= 1,即所有节点对可能的最大值。获取后e_{ij}, 使用softmax在每个邻域中对它们进行归一化,以在聚合前后保持嵌入比例不变:

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第3张图片

 二进制分类器w(v)可以以各种形式定义。为了避免过多的参数和复杂的模型,本文简单地将其实现为逻辑回归分类器,该分类器由a\in \mathbb{R} ^{d'}在GNN层的潜在空间上参数化,比如,w(v)=\sigma(a^TWh_v),其中W\in \mathbb{R} ^ {d'\times d}是GNN层的权重矩阵,h_v\in\mathbb{R}^d是该层的输入,并且 是sigmoid函数。分类器的目标是找到潜在空间的一个分割,使得分布内和分布外的节点之间能很好地分离。为了增强模型的表现力,本文将注意力计算扩展到多头变体,类似于[29]:

 其中, 是注意力头部的数量,||表示串联。在预测层中,将拼接替换为平均,以保持分类的维度合理:

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第4张图片

 其中z_iv_i的预测类分布, \sum_{k=1}^{|y_l|}z_{ik}=1

4.2 Regularizer

OODGAT的架构如图5所示

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第5张图片

 一致性正则化。OODGAT集成了一个二进制分类器来度量图中节点的OOD分数,并将节点级别的分数转换为边级别的注意力权重,用于特征聚合。除了分类器预测的分数,还可以获得模型最后一层节点的输出分布,从而可以计算熵作为另一种OOD度量。将分类器预测的分数表示为w, 熵给出的分数为e,一致性损失:

 其中w表示由分类器预测的OOD得分的向量:

 

 e表示由熵给出的OOD得分的向量:

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第6张图片

其中,\mu_e\sigma _e 表示\{e_i\}_{i=1}^{|V|}的平均值和标准偏差,H(z)是由OODGAT的最后一层给出的预测类分布的熵。 

在等式(6)中,使用余弦相似性来约束we之间的差异,即,两种方法应在所有节点上给出相似的预测。一致性正则化器背后的直觉是注意机制和模型最终输出之间的因果关系。也就是说,当分类器给出的分数改变时,用于聚集特征的注意力权重也会改变,这反过来影响模型的最终输出。如果我们将分类器的变化视为原因,那么模型输出的变化可以视为影响。通过对齐因果关系,模型的假设空间被缩小,梯度下降更有可能找到更接近地面真相的解决方案。想象一个极端的情况,分类器完美地工作,并产生接近真实的OOD分数。在这种情况下,边缘的注意力权重也变得接近完美,并且该模型在检测异常值方面变得非常强大,因为它平滑了所有ID和OOD的表示,并防止了ID与OOD之间的信息交换。因此,根据熵计算的OOD分数也接近现实,使得w和e之间的角度很小。从另一个角度来看,我们可以将一致性损失解释为一种监督学习:熵为分类器提供监督,反之亦然。随着训练的进行,分类器不仅从最终输出中学习,还通过在潜在空间中更好地区分ID和OOD来教导模型产生更可靠的预测。因此,这两个模块进行了一场追逐游戏,并相互受益。对于具有两层的OODGAT,计算两层的一致性损失,并且在每一层中,对所有头部的得分向量w进行平均:

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第7张图片

 熵正则化器。在OODGAT中,使用熵作为预测不确定性的度量。随着训练的进行,交叉熵损失将标记节点的熵推到最低水平。由于神经网络的泛化能力,训练集之外的节点也可能产生低熵预测,特别是那些属性与标记的属性相似或紧密相关的预测,从而在图中产生一些低熵区域。与分类损失相比,希望保持异常值的不确定性尽可能高,以抵消交叉熵导致的熵减少效应。然而,在训练过程中无法获得节点的真实身份,因此将二元分类器给出的预测作为伪标签,并使伪OOD节点的输出接近均匀分布,以增强分布内和分布外节点之间的可区分性。熵损失:

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第8张图片
其中u是均匀分布,z_i是节点v_i的预测类分布 , \epsilon是用于选择伪OOD节点的阈值,\delta 指克罗内克函数。

差异正则化器。对于具有两个图卷积层的OODGAT,通过最小化以下差异损失来进一步约束两个层计算的OOD分数之间的差异:

 

最终优化目标。总体而言,OODGAT的最佳参数是通过最小化以下损失获得的: 

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第9张图片

其中,\beta,\gamma 和\zeta是正则化器的平衡参数,a^{b\times t}是用于随着训练的进行逐渐衰减正则化器的权重,以控制ID分类和OOD检测之间的平衡点。a 是介于0和1之间的数字,b是一个小数字, 是迭代步数。在实验中,设置ab分别为0.9和0.01。通过将三个正则化器与交叉熵相结合,OODGAT不仅学会了在分布节点中进行分类,还学会了在潜在空间中将分布内与分布外节点分开,如图6所示。

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第10张图片

 5 EXPERIMENTS

 5.1 Experimental Setup

评估指标。在具有OOD节点的图学习设定中,目标是同时完成两项任务,即1)节点分类和2)异常值检测。对于第一个任务,本文采用分类精度作为评估度量;对于第二项任务,计算了OOD检测文献中常见的两个指标,即ROC曲线下面积(AUROC)和真阳性率达到95%时的假阳性率(FPR@95)。为了全面评估这两个任务的性能,将它们一起视为N+1个类的多类分类问题,即N个ID类和一个OOD类,称这种任务为联合分类,性能可以通过加权F1评估。

数据集。在六个常用的图形数据集上测试OODGAT,即Cora、AmazonComputers、AmazonPhoto、CoauthorCS、LastFMAsia和Wiki CS。对于每个数据集,将所有类划分为ID和OOD,这样ID部分包含节点大小相对平衡的类,ID类的数量至少为三个,以避免过于容易的分类。与传统的SSNC类似,本文为每个ID类随机选择20个节点作为训练集,构建了一个小的验证集,包含来自每个ID类的10个节点,以及从OOD类中随机抽取的相同数量的异常值。

方法。本文以下方法进行了比较:

  • 端到端的方法,它们在同一框架中完成SSOD和SSNC。具体而言,选择MLP、GCN、GraphSAGE、GAT和GATv2作为端到端基线。对于所有方法,我们使用预测分布的熵作为OOD得分。
  • 事后OOD检测器,需要在预训练分类器的基础上训练额外的离群值检测器。使用ODIN、Mahalanobis距离和CaGCN作为事后检测器。ODIN使用温度缩放和输入预处理来校准输出分布,而Mahalanobis距离利用预训练分类器的潜在空间来计算测试样本和已知类之间的距离。对于每种方法,使用原始论文中描述的度量进行OOD检测,即[16]的MSP和[14]的Mahalanobis距离。CaGCN是最近发表的一种校准GNN输出置信度的方法,可以使用校准的置信度作为异常值检测的分数。
  • GKDE,一种专门设计用于检测图上异常值的方法,提出了一个多源不确定性框架,该框架使用了来自深度学习和信念理论的各种类型的预测不确定性,并表明真空度是OOD检测的最佳度量。
  • OODGAT,本文提出的方法。它有两个版本:OODGAT-ENT,它使用预测分布的熵作为异常值的度量;OODGATATT,它使用二进制分类器给出的分数。

5.2 Main Results

与端到端方法的比较。首先将我们的方法与端到端方法进行比较。结果列于表2中:

1)在所有数据集上,GNN在SSOD和SSNC中都大大优于MLP,这表明图结构对两项任务都有帮助。

2)GraphSAGE在6个数据集中的5个数据集上的AUROC超过GCN,这可归因于在特征传播期间分离自身和相邻表示的策略。

3) 在所有基线模型和数据集中,GAT和/或GATv2在异常值检测中实现了最佳性能。结果表明,即使是朴素的注意机制也有助于区分不同分布的节点

4) 对于SSOD,OODGAT在六个数据集上以相当大的优势优于所有基线。在AmazonPhoto和CoauthorCS等简单的数据集上,OODGAT的AUROC超过0.98,而对于LastFMAsia和Wiki CS等困难的任务,OODGAT大大提高了检测能力并取得了不错的性能,证明了所提出的传播策略的有效性。

5) 对于SSNC,OODGAT比其他方法获得更好或类似的结果。例如,在AmazonComputers和LastFMAsia上,OODGAT的分类准确度比GAT和/或GATv2高3%和1%。结果表明,通过去除OOD数据带来的干扰,分类器更有可能收敛到具有更好泛化能力的点。

6) 从联合分类的角度来看,OODGAT始终优于所有竞争对手,使其成为使用OOD节点进行图形学习的最强大的方法。【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第11张图片

与事后OOD检测器的比较。还将OODGAT与ODIN、Mahalanobis距离和CaGCN进行了比较。这种比较是不公平的,因为这些方法要么需要额外的数据预处理,要么涉及多个训练阶段,而OODGAT在不引入额外复杂性的情况下完成任务。对于除OODGAT之外的所有实验,预处理GAT作为基础分类器,并使用不同的后处理检测器进行OOD检测。与原始论文不同,本文直接在测试集上调整检测器,以消除不良超参数配置的可能性。对于OODGAT,不使用测试集进行训练或调整。表3报告了所有方法的检测性能,只有在少数情况下,事后检测器才能提高检测能力(阴影单元格)。除此之外,由于图形数据的特性,如缺乏监督和非连续输入,所有方法都会失去其功能。尽管不公平,OODGAT还是大大优于所有事后检测器,OODGAT的优势来自同时处理特征提取和OOD检测的端到端优化策略,而其他方法使用两阶段更新框架,分别训练分类器和检测器,只能找到次优解。 

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第12张图片

 与GKDE比较。为了确保公平比较,在原始论文中使用的相同数据集上测试了本文的方法,并采用了相同的预处理程序。在表5中报告了OOD检测的AUROC和AUPR,其中GKDE的结果来自原始论文。在所有三个数据集上,OODGAT在AUROC和AUPR方面仍优于GKDE。结果表明,仅仅将现有GNN嵌入到不确定性计算框架中是不够的。相反,更好地利用图表结构中隐含的信息是成功的关键。

 5.3 Ablation Study

使用OODGAT-ATT在AmazonComputers上进行了实验,每个损失的权重与表2中的最佳结果相同。在(1)中,仅使用交叉熵损失来训练模型。OOD检测的AUROC约为50%,这与随机猜测相似,表明仅使用交叉熵不足以学习ID和OOD的分类。然后,分别在(2)、(3)和(4)中添加一个正则化项。结果表明,一致性损失可以有效地提高二元分类器的辨别能力,而熵损失和差异损失在没有一致性正则化器的帮助下使用时贡献很小或是负面的。这是符合预期的,因为其他两个损失依赖于通过一致性损失学习的二元分类器的准确预测。比较(2)和(5),发现当熵损失与一致性损失一起使用时,可以进一步提高检测能力。类似地,(2)和(6)之间的比较表明,差异正则化器的添加有助于分布内样本的分类。最佳结果在(7)中获得,其中将所有三个正则化器与交叉熵损失相结合。总之,所有正则化都有助于最终的性能,其中一致性损失起着最重要的作用。

【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022_第13张图片

6 CONCLUSION

在本文中,提出并研究了包含OOD节点的图学习问题。证明了GNN天生适合于具有高同质性的图上的异常值检测,并提出了一个端到端模型OODGAT来解决SSOD和SSNC问题。大量实验表明,虽然输入预处理和温度缩放等现有方法不能很好地处理该问题,但OODGAT在分布内节点分类和OOD检测方面始终表现良好。

你可能感兴趣的:(图开集识别,深度学习,人工智能)