研究方向 :图神经网络
论文标题 :基于学习解纠缠因果子结构的图神经网络去偏
论文链接 :https://arxiv.org/pdf/2209.14107.pdf
https://doi.org/10.48550/arXiv.2209.14107
图神经网络(GNNs)在各种应用中显示了对图数据的强大性能。一个主要的应用类别是图分类任务,如分子图属性预测、超像素图分类和社会网络分类。众所周知,图的分类通常是由一个相关的子结构决定的,而不是由整个图结构决定的。例如,对于MNIST超像素图分类任务,数字子图对于标签来说是因果的(即,确定性的)。分子图的致突变特性取决于官能团(即,二氧化氮(NO2)),而不是不相关的模式(即碳环)。因此,识别因果子结构,从而做出正确的预测,是GNNs的基本要求。
理想情况下,当图是无偏的,即只有因果子结构与图标签相关时,GNNs能够利用这些子结构来预测标签。然而,由于数据采集过程的不可控,图形不可避免地会有偏倚,即存在无意义的子结构与标签虚假关联。以3.1节中的有色MNIST超像素图数据集为例(如图1(a)所示),每一类数字子图主要对应一种颜色背景子图,如数字 0 子图与红色背景子图相关。因此,颜色背景子图将被视为偏差信息,在训练集中与标签高度相关但不确定标签。在这种情况下,GNNs还会稳定地利用因果子结构进行决策吗?
图1:CMNIST-75sp的示例图以及该数据集上GNN的性能。
为了研究偏差对GNNs的影响,我们进行了一项实验研究,以证明偏差(特别是在严重偏差情景下)对GNNs的泛化能力的影响(第3.1节)。我们发现GNNs实际上利用了偏差和因果子结构来进行预测。然而,由于偏倚相关性较强,即使是偏倚子结构也不能像因果子结构那样准确地确定标签,因此GNNs主要利用偏倚子结构作为捷径进行预测,导致泛化性能大幅度下降。为什么会这样?我们使用因果图分析图分类背后的数据生成过程和模型预测机制(第3.2节)。偶然图表明观测图是由因果潜变量和偏差潜变量生成的,现有的GNNs无法区分因果子结构和纠缠图。如何从观测图中分离出因果和偏差子结构,使GNNs只能在出现严重偏差时利用因果子结构进行稳定的预测?要解决这个问题,我们需要面对两个挑战。1)、如何识别严重偏倚图中的因果子结构和偏倚子结构?在严重偏置的情况下,偏置子结构更容易学习,最终主导预测结果。使用正常的交叉熵损失,如DIR,不能完全捕获这种侵略性的偏置特性。2)、如何从一个纠缠图中提取因果子结构?统计因果子结构通常是由整个图总体的全局性质决定的,而不是由单个图决定的。从图中提取因果子结构时,需要建立所有图之间的关系。
在本文中,我们提出了一种新的GNNs通过学习解纠缠因果子结构的去偏框架,称为DisC。给定一个输入偏置图,我们提出通过参数化边缘掩码生成器显式地将边缘过滤成因果和偏置子图,其参数在整个图种群中共享。因此,边缘掩盖器自然能够指定每个边缘的重要性,并从整个观察的全局视图中提取因果和偏差子图。然后,分别利用“偶然”感知(加权交叉熵)损失和“偏差”感知(广义交叉熵)损失来监督两个功能GNN模块。在此监督的基础上,边缘掩模发生器生成相应的子图,GNNs将相应的子图编码为解纠缠嵌入。在解纠缠嵌入中,我们将从不同图中提取的潜在向量随机置换,在嵌入空间中生成更多的无偏反事实样本。新生成的样本仍然包含因果信息和偏倚信息,而它们的相关性已不相关。此时,只有因果变量与标签之间存在相关性,这样模型就可以专注于因果子图与标签之间的真正相关性。我们的主要贡献如下:
• 据我们所知,我们首先研究的是gnn的泛化问题,它是在一个更具挑战性但更实用的场景下,即图具有严重的偏差。我们从实验研究和因果分析两方面系统地分析了偏差对gnn的影响。我们发现偏置子结构比因果子结构更容易支配gnn的训练。
• 为了消除GNN的偏差,我们开发了一种新的GNN框架来分解因果子结构,该框架可以灵活地构建在各种GNN的基础上,以提高泛化能力,同时具有固有的可解释性、鲁棒性和可移植性。
• 我们构建了三个新的数据集,这些数据集具有不同的性质和可控的偏差程度,可以更好地对新问题进行基准测试。我们的模型比相应的基本模型有很大的优势(从4.47%到169.17%的平均改进)。各种调查研究表明,我们的模型可以发现和利用因果子结构进行预测。
现有的大多数GNN方法都是在IID假设下提出的,即训练集和测试集都是从同一分布中独立抽取的。然而,在现实中,理想假设很难得到满足。近年来,人们提出了多种方法来提高gnn在野生环境下的泛化能力。一些文献研究了节点分类的OOD问题。对于OOD图分类任务,StableGNN提出学习图中的稳定因果关系。OOD-GNN提出将学习嵌入的各个维度独立约束。DIR发现了广义gnn的不变原理。它们虽然具有较好的OOD性能,但并不是针对偏差较大的数据集设计的,这对于保证gnn的泛化能力具有更大的挑战性。
目前,研究解纠缠GNN的方法有很多。DisenGCN利用邻居路由机制将节点的邻居划分为几个互斥的部分。IPGDN通过独立约束嵌入特性的不同部分来提升DisenGCN。DisenGCN和IPGDN是节点级解纠缠,因此FactorGCN考虑了整个图信息,并将目标图解纠缠为几个分解后的图。尽管前人的研究成果,他们并没有考虑对图的因果信息和偏倚信息进行梳理。
最近,去偏问题引起了机器学习界的广泛关注。其中一种方法是明确地预先定义某种偏差类型来减轻。例如,Wang et al.和Bahng et al.设计了一个纹理和颜色引导的模型来对抗有偏差的神经网络训练去偏差的神经网络。最近的研究方法没有定义特定类型的偏差,而是依赖于一个简单的假设,即模型容易利用偏差作为捷径来做出预测。与最近的研究一致,我们的研究属于第二类。然而,现有的方法大多是针对图像数据集设计的,不能有效地从图数据中提取因果子结构。值得注意的是,我们首先研究了图数据的严重偏倚问题,该方法可以有效地从图数据中提取因果子结构。
为了度量受偏差影响的gnn的泛化能力,我们构造了一个偏差程度可控的图分类数据集CMNIST-75sp。我们首先构建一个像[1]这样的有偏MNIST图像数据集,其中每个类别的数字与背景中的预定义颜色高度相关。例如,在训练集中,90%的0位数背景为红色(即有偏样本),剩余10%的图像背景为随机颜色(即无偏样本),此时的偏度为0.9。我们考虑四个偏差度{0.8,0.85,0.9,0.95}。
图1:CMNIST-75sp的示例图以及该数据集上GNN的性能。
我们在CMNIST-75sp上执行了三种常用的GNN方法:GCN、GIN和GCNII,结果如图1(b)所示。虚线和实线的相同颜色分别表示相应方法在有偏测试集和无偏测试集上的结果。总的来说,GNNs在有偏测试集中比在无偏测试集中获得了更好的性能。这一现象表明,虽然GNNs仍然可以学习一些因果信号进行预测,但意外偏差信息也被用于预测。具体来说,随着偏置程度的增大,GNNs在偏置测试集上的性能有所提高,精度值与偏置程度基本一致,而在无偏测试集上的性能急剧下降。因此,虽然因果子结构可以很好地确定标签,但在严重的偏倚情况下,GNNs倾向于利用更容易学习的偏倚信息而不是固有的因果信号进行预测,最终偏倚子结构将主导预测。
去偏GNN进行无偏预测需要理解图分类任务的自然机制。我们提出了任务背后数据生成过程和模型预测过程结合的因果观点。在这里,我们通过检查5个变量之间的因果关系,将因果观形成化为结构因果模型(SCM)或因果图,这5个变量分别是:未观察到的因果变量C、未观察到的偏差变量B、观察到的图G、嵌入图E和基本事实标签/预测Y(我们将变量Y用于基本事实标签和预测,因为它们被优化为相同的)。图2(a)显示了结构因果模型,其中每个链接表示一个因果关系。
图2:结构因果模型,灰色和白色变量分别表示未观测变量和观测变量。
• C → G ← B 观测图数据由两个未观测到的潜在变量生成:因果变量C和偏倚变量B,如CMNIST-75sp数据集中的数字子图和背景子图。所有下列关系都由CMNIST-75sp说明。
•C → Y 这一联系意味着因果变量C是决定基本事实(ground-truth)标签Y的生成的唯一内生父变量。例如,C是oracle数字子图,这正好解释了为什么标签被标记为Y。
• C⇠⇢ B 这个链接表明了C和B之间的虚假关联。这种概率依赖通常是由直接原因或未观察到的混杂物引起的。这里我们不区分这些场景,只观察B和C之间的伪相关,例如颜色背景子图和数字子图之间的伪相关。
• G → E → Y 现有的GNN通常是根据观察图G学习嵌入E的图,然后根据学习到的嵌入E进行预测Y。
根据结构因果模型,GNNs将利用这两种信息进行预测。由于偏置子结构(如背景子图)通常比有意义的因果子结构(如数字子图)具有更简单的结构,如果GNN利用这种简单的子结构,可以很快实现低损耗。因此,当大多数图都有偏倚时,GNN更倾向于利用偏倚信息。根据图2(a)中的结构因果模型,根据d-connection 理论(参见App. a):两个变量是相互依赖的,如果它们之间至少有一条畅通的路径相连,那么我们可以找到两条路径,这两条路径会导致偏差变量B和标签Y之间产生假相关:(1) B → G → E → Y和(2) B ↔ → Y要使预测Y与偏置B不相关,需要截取两条畅通的路径。为此,我们建议从因果关系的角度对GNN进行去偏 ,如图2(b)所示。
• C ← G → B 和 C → Y 要截取路径(1),我们需要从观察图G中分离出潜在变量C和B,仅基于因果变量C进行预测。
要截取路径(2),由于我们无法改变C和Y之间的链接,一种可能的解决方案是使C和B不相关。
(a)结构因果模型的数据生成与现有GNNs的预测过程的结合。(b)我们的去偏GNN方法的结构因果模型。
图2:结构因果模型,灰色和白色变量分别表示未观测变量和观测变量。
基于上述原因分析,在本节中,我们提出了我们提出的去偏GNN框架DisC,以去除伪相关。总体框架如图3所示。首先,学习边缘掩模发生器将原始输入图的边缘掩模成因果子图和偏置子图;其次,训练两个独立的GNN模块及其对应的掩码子图,分别将对应的因果子结构和偏置子结构编码为解纠缠表示;最后,在解纠缠表征经过良好训练后,对训练图中的偏差表征进行置换,生成反事实的无偏样本,从而消除了因果表征与偏差表征之间的相关性。
给定一个小批量有偏图 G = {G1,⋯,Gn},我们的思想是:取一组图实例并设计一个生成概率模型来学习将边缘掩码成因果子图或有偏子图。特别地,给定一个图 G = { A , X },其中A为邻接矩阵, X 为节点特征矩阵,我们利用多层感知器(MLP)对节点 i 的节点特征 Xi 和节点 j 的节点特征 Xj 进行拼接,来度量因果子图的边 (i, j) 的重要性:
αij = MLP([xi, xj]) (1)
然后利用sigmoid函数 σ ( ⋅ ) 将 αij 投影到(0,1)范围内,表示边(i, j)边为因果子图中边的概率为:
cij = σ(αij) (2)
自然地,我们可以通过:bij = 1− cij 得到边 (i, j) 是偏置子图中的边的概率。现在我们可以构造因果边缘掩模 Mc = [cij] 和偏置边缘掩模 Mb = [bij] 。最后,将原始图G分解为因果子图 Gc = { Mc ⊙ A, X } 和偏置子图 Gb = { Mb ⊙A, X } 。边缘掩码可以直观地显示原始图的结构信息的不同部分,从而在不同子图上构建的GNNs可以对图信息的不同部分进行编码。此外,掩模发生器还有两个优点。(1) 全局视图(Global view):在单个图层,掩码生成器 ( mask generator ) (例如:MLP ) 的参数由图中的所有边共享,对图中的所有边采取全局视图,使我们能够识别图中的社区。众所周知,边的作用是不能独立判断的,因为边之间通常会相互协作,形成一个社区来进行预测。因此,从全球的角度来评估一个优势是至关重要的。在整个图种群级别,掩码生成器对训练集中的所有图采取全局视图,这使我们能够识别因果/偏倚子图。特别是,由于因果/偏倚是总体水平上的统计信息,因此需要查看所有的图表来确定因果/偏倚的子结构。同时考虑了这种联合效应和种群水平的统计信息,该生成器能够更准确地度量边缘的重要性。(2) 概化 :掩码生成器可以将掩码生成机制概化到新的图上,而不需要再进行训练,因此能够有效地裁剪不可见的图。
给定Gc和Gb,如何确保它们分别是因果子图和偏倚子图? 受[23]的启发,我们的方法用线性分类器(Cb, Cc)同时训练一对GNNs (gb, gc),如下所示:(1) 由于在3.1节中观察到偏置子结构更容易学习,我们利用偏置感知损失来训练偏置GNN gb和偏置分类器Cb;(2) 相比之下,我们在偏置GNN难以学习的训练图上训练因果GNN gc和因果分类器Cc。接下来,我们将详细介绍每个组件。
如图3所示,GNN gc和gb将对应的子图嵌入因果嵌入zc = gc(gc;γc)和偏置嵌入zb = gb(gb;γb),其中γ为gnn的参数。随后,串联向量z = [zc;为了训练gb和Cb作为偏置提取器,我们利用广义交叉熵(GCE)[51]损失来放大偏置GNN和分类器的偏置:GCE(Cb(z;b) = 1−C y b (z;αb)q q, (3)