在本文中,我们提出了一种新颖的方法,通过在相似的输入图上对 GNN 的通用决策逻辑进行显式建模,来生成对 GNN 的鲁棒反事实解释。解释具有鲁棒性,因为是从控制许多类似输入图的预测的 GNN 的公共决策边界产生的;是反事实的,从输入图中删除具有解释的标识的边集会显著改变预测结果。
在GNN的上下文中,反事实解释标识输入图实例的边缘的一小部分,使得移除这些边缘显著改变GNN做出的预测。为了使解释更可信,反事实解释应该对噪声具有鲁棒性,也就是说,输入图上的一些细微变化不会显着改变解释。
如果系统的扰动可以在不改变标签的情况下导致截然不同的解释,则解释被认为是脆弱的。否则,解释被认为是稳健的。
在本文中提出了 GCExplainer,对 GNN 进行可靠的反事实解释。关键思想是首先通过决策区域集对GNN的通用决策逻辑进行建模,其中每个决策区域控制大量图形上的预测,然后通过深度神经网络提取可靠的反事实解释,该神经网络探索决策逻辑由决策区域的线性决策边界。
contribution:
通过一组决策区域对 GNN 的决策逻辑进行建模,其中每个决策区域由 GNN 的一组线性决策边界诱导。我们提出了一种无监督的方法来查找每个类的决策区域,以便每个决策区域控制预测为同一类的多个图样本的预测。决策区域的线性决策边界捕获了决策区域内所有图形实例上的公共决策逻辑,因此不会轻易过度拟合单个图形实例的噪声。通过探索线性边界中编码的通用决策逻辑,我们能够产生对噪声具有内在鲁棒性的反事实解释。
基于决策区域的线性边界,我们提出了一种新颖的损失函数来训练神经网络,该神经网络会产生强大的反事实解释,作为输入图边缘的一小部分。损失函数被设计为直接优化边缘子集的可解释性和反事实性,使得:
1) 由边缘诱发的子图位于决策区域内,从而具有与输入图一致的预测;
2) 从输入图中删除边的子集会产生位于决策区域之外的余数子图,因此余数子图上的预测会发生明显变化。
进行了全面的实验研究,与最先进的方法在保真度,鲁棒性,准确性和效率方面进行了比较。所有结果都可靠地证明了我们方法的卓越性能。
MEG 专门为化合物预测而构建的 GNN 产生反事实解释,但对领域知识的严重依赖在很大程度上限制了其在通用 GNN 上的适用性。
CF-GNNExplainer 独立地优化了每种解释的反事实属性,但忽略了预测和解释之间的相关性。
大多数方法的实例级解释通常不是反事实的,因为由于 GNN 的非凸性,从输入图中删除解释子图并不一定会改变预测结果。此外,这些方法通常对噪声不鲁棒,因为每个输入图预测的解释都是独立优化的。因此,解释很容易使输入图内部的噪声过拟合,并且在对输入图进行轻微修改后可能会发生重大变化。
定义中第一个要求是反事实的,第二个是对噪声具有鲁棒性。
本节中,我们首先介绍如何在具有相同预测类的大量图形上提取 GNN 的通用决策逻辑。这是通过 GNN 的一组线性决策边界诱导的决策区域来实现的。然后,基于决策区域的线性边界,我们提出了一种新颖的损失函数来训练神经网络,该神经网络可以产生可靠的反事实解释。最后,我们讨论了生成解释时方法的时间复杂性。
我们在 GNN 的最后卷积层的 d 维输出空间 Od 中提取 GNN 的决策区域,最后一个卷积层生成的特征在概念上更有意义,并且对噪声的鲁棒性更高。
决策逻辑的特征是由 Od 中连接的决策超平面形成的分段线性决策边界。我们称这些超平面为线性决策边界 (LDBs)
H中的一组 ldb 将空间 Od 划分为大量的凸多面体。由 H 中的 ldb 子集形成凸多面体。所有其图嵌入包含在同一凸多面体中的图都被预测为同一类,因此,凸多面体的 ldb 在其图嵌入位于凸多面体内的所有图上编码的公共决策逻辑。
我们将一组图实例的决策区域建模为满足以下两个属性的凸多面体:
首先,决策区域应该由H中的ldb的子集诱导,当我们从ldb中提取反事实解释时,这些解释忠于GNN的真实决策逻辑。
其次,决策区域应覆盖训练数据集D中的许多图实例,并且所有覆盖的图应被预测为同一类。这决策区域的ldb在决策区域覆盖的所有图形上捕获公共决策逻辑,避免了过拟合单个图实例的噪声。
那么如何满足以上两个条件?
关键思想是找到一个凸多面体,覆盖 D 中的大量图实例,这些图实例被预测为同一类c ∈ C。
用 Dc ∈ D 表示预测为类 c ∈ C 的 D 中的图集,P∈ H 将空间Od划分为一组凸多面体的一组ldb。**用 r(P,c) 表示由 P 引起的覆盖 Dc 中最大数量图的凸多面体,用 g(P,c) 表示由 r(P,c) 覆盖的 Dc 图的数量,用 h(P,c) 表示被 r(P,c) 覆盖但不被预测为 c 类的图的数量。**我们通过解决以下约束优化问题,提取了一个覆盖 Dc 中大量图实例的决策区域。
实现了决策区域的两个性质,保证了决策区域是由 H 中的一个ldb 子集诱导的,最大化 g(P,c) 要求 r(P,c) 覆盖 Dc 中的大量图,约束 h(P,c) = 0确保 r(P,c) 覆盖的所有图都被预测为同一类c。
一旦我们找到了上述问题的解 P,就可以很容易地得到决策区域 r(P,c),首先对 P 诱导的每个凸多面体所覆盖的 Dc 中的图的数量进行计数,然后选择覆盖 Dc 中的图的数量最大的凸多面体。
Od 中的一个 ldb 可以写成
,x是变量,w是基础项,b是偏差。对于任何输入图,从 H 采样线性边界,通过计算:
给定一个图,上述式子从 H 中识别一个 ldb,我们可以从D中均匀地采样输入图的子集,并使用等式 (2) 和 (3) 导出LDB的样本。
将导出样本记为H~,代入方程 (1) 得:
δ ≥ 0是一个容差参数,
,这是保持实际问题可行的 δ 的最小值。
等式 (4) 中的问题可以被证明是众所周知的NP-hard的子模成本子模覆盖 (SCSC) 问题。我们采用贪婪边界选择方法来找到这个问题的一个很好的解决方案,具体来说,我们将 P 初始化为空集,然后从 H~中迭代选择一个新的边界 h:
分子中是指将 h 加到 P 中时 g(P,c) 的减少,分母是 h(P,c) 的减少。不增加是因为添加新的边界 h 可能仅从凸多面体 r(P,c) 中排除某些图。
每次迭代时,分子越小,分母越大,方程 (5) 就可以迅速收敛。在分子上添加一个小常数 ,当有多个h的候选者不减少 g(P,c) 时,我们仍然可以选择最大减少 h(P,c) 。
我们应用剥离策略迭代提取多个决策区域。对于每个类c,首先解决一次实际问题,以找到一个决策区域 r(P,c),然后从Dc中删除r(P,c) 覆盖的图。如果有剩余的图被预测为c类,我们继续使用剩余的图找到决策区域,直到Dc中的所有图都被删除。当为每个类 c ∈ C删除 Dc 中的所有图时,我们停止迭代并返回我们找到的决策区域集
在本节中,我们介绍如何使用决策区域的 ldb 来训练神经网络,该神经网络将产生强大的反事实解释为输入图边缘的一小部分。我们将解释形成为边缘的子集,因为 GNN 通过聚合在边缘上传递的消息来做出决策。使用边而不是顶点作为解释可以更好地洞察 GNN 的决策逻辑。
用 fθ 表示神经网络,以生成输入图G的边的子集,作为对预测 φ(G) 的鲁棒反事实解释。θ 表示神经网络的参数集。对于实验,我们的解释网络 f 由 2 个完全连接的层组成,具有 ReLU 激活和64的隐藏尺寸。
对于 G 的任何两个连接的顶点 vi 和 vj,分别用 zi 和 zj 表示由 GNN 的最后一个卷积层对两个顶点产生的嵌入。神经网络 fθ 以 zi 和 zj 为输入,并输出 vi 和 vj 之间边缘的概率作为解释的一部分:
Mij 表示解释中包含vi和vj之间的边缘的概率。当 vi 和 vj 之间没有边,即 Aij = 0 时,我们设置 Mij = 0。
M是一个 n × n 矩阵,它携带完整信息以生成鲁棒的反事实解释作为边的子集,用 S 来表示 E。我们通过选择E中所有在 M 中对应的条目大于0.5的边来获得 S。
对于输入图 G = (V,E),用 S 来表示由 fθ 产生的边的子集,以解释预测 φ(G),我们的目标是训练一个好的模型 fθ,使得 S 从 G 诱导的子图 GS 上的预测与 φ(G) 一致;从 G 中删除 S 中的边会产生一个余数子图 GE\S,使得对 GE\S 的预测从 φ(G) 显著变化。
由于通过 fθ 产生 S 是一种离散操作,很难将其纳入端到端训练过程中,因此我们定义了两个代理图来分别近似 GS 和 GE\S,代理图由 θ 通过连续函数确定,该连续函数可以顺利地合并到端到端训练过程中。
由 Gθ 表示的 GS 的代理图是通过将 M 作为邻接矩阵来定义的,Gθ 具有与 G 完全相同的图结构,但是 Gθ 的边权由 M 中的条目而不是A给出。
GE\S 代理图由 Gθ’ 表示,和 G 由相同图结构,但每对顶点 vi 和 vj 之间的边权重定义为:
Gθ 和 Gθ’ 的边权由 θ 通过连续函数确定,因此我们可以顺利合并 Gθ 和 Gθ’ 成一个端到端的训练框架。
我们使用正则化项来强制Mij中每个条目的值接近0或1,使得 Gθ 和 Gθ’ 更好地近似于 GS 和 GE\S。我们将损失函数公式化为:
其中 λ ∈ [0,1],β ≥ 0和 µ ≥ 0是控制每个项重要性的超参数,损失函数的第一项要求GNN在 Gθ 上的预测与 G 上的预测一致,意味着 Gθ 中权重较大的边主导对 G 的预测。我们通过要求 Gθ 由覆盖 G 的相同决策区域来表示该术语。
用 HG 表示诱导覆盖 G 的决策区域的 ldb 集,用 |HG| 表示 ldb 的数量。用 σ(·) 表示标准sigmoid函数,我们将损失函数的第一项公式化为
使得最小化 Lsame(θ,G) 鼓励图嵌入 φ gc(G) 和 φ gc(G θ) 位于 HG 中每个 LDB 的同一侧。因此,鼓励 G θ 被覆盖 G 的相同决策区域覆盖。
损失函数的第二项通过要求对 Gθ’ 的预测与对 G 的预测显着不同来优化解释的反事实性质。直观地说,这意味着 Gθ 中具有较大权重的边的集合是很好的反事实解释,因为减小这些边的权重会显著改变预测。遵循上述直觉,我们将第二项公式化为:
使得最小化 Lopp(θ,G) 鼓励图形嵌入 φ gc(G) 和 φ gc(Gθ’),HG中至少一个LDB的相对侧。这进一步意味着鼓励 Gθ’ 不位于覆盖G的决策区域上,因此鼓励对 Gθ’ 的预测与对 G 的预测相比不能发生显著变化。
我们使用L1正则化在输入图 G 上由 fθ 产生的矩阵 M 上,以产生稀疏矩阵 M,从而仅选择 G 中的少量边作为反事实解释。我们还使用熵正则化:
将Mij中每个条目的值推至接近 0 或 1,使得 Gθ 和 Gθ’ 分别近似于 GS和 GE\S。
现在,我们可以使用 D 中的图和提取的决策区域,通过使用反向传播在 θ 上最小化 L(θ),以端到端的方式训练神经网络 fθ。一旦我们完成训练 fθ,我们可以首先应用 fθ 来产生输入图 G = (V,E) 的矩阵 M,然后通过选择 E 中所有在 M 中对应项大于0.5的边来获得解释 S。我们不需要提取的边界来进行推理,因为在训练过程中 GNN 的决策逻辑已经被提取到解释网络f中。
我们的方法可以很容易地扩展为节点分类任务生成可靠的反事实解释。我们的方法具有很高的时间复杂度 O(|E|) 来解释输入图 G 上的预测,其中 |E| 是 G 中的边总数。此外,可以直接使用神经网络 fθ,而无需重新训练即可预测对看不见的图的解释。
我们进行了一系列实验,将我们的方法与最先进的方法进行比较,包括GNNExplainer,PGExplainer,PGM-Explainer,SubgraphX 和 CFGNNExplainer 。对于识别一组顶点作为解释的方法,我们使用顶点集从输入图诱导出一个子图,然后使用诱导子图的边集作为解释。对于识别子图作为解释的方法,我们直接使用识别出的子图的边集作为解释。