隐语小课丨「论文研究」隐私保护纵向联邦图神经网络

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第1张图片

在7月份举办的IJCAI-ECAI2022(第31届国际人工智能联合会议与第25届欧洲人工智能会议)上,蚂蚁集团参与撰写的论文《针对Node分类任务的隐私保护纵向联邦图神经网络》被收录。

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第2张图片

IJCAI2022接收投稿超过4500篇,录用率仅为15%。隐语团队与浙江大学等团队的论文针对数据垂直分割场景提出了VFGNN模型,以完成隐私保护的节点分类任务,并且该算法可拓展于其他GNN模型,对广泛解决实际业务场景中数据分属不同持有方的“数据孤岛”问题具有重要意义。

数据垂直分割场景常见于实际业务中跨行业/跨服务范围的机构之间,当前社会数字化转型进程中,同业间联动发展相对靠前,以技术手段助力跨行业间的安全数据流通,对于数字经济整体发展具有重要意义,更有利于为人民生活创造更多更广的新型便利服务。

图神经网络即一种基于图结构的深度学习方法具备处理非结构化数据(例如社交网络、交通网络、知识图谱、复杂的文件系统等)的出色能力,正是各大深度学习顶会的研究热点,以差分隐私加持,模型将具备更强的隐私保护能力,探查更广泛的数据价值。

===

  • 摘要

GNN模型在很多实际任务中都取得了非常优异的效果,这也离不开图数据中丰富的特征数据和边数据。然而,这些数据在实际业务场景中可能会分属于不同的数据持有方,受限于数据隐私保护的要求,导致了数据孤岛问题。本文提出了VFGNN模型,在保护数据隐私的前提下,完成数据垂直分割场景(特征空间不同、样本空间相同)中的节点分类任务。该算法可以被推广到其它GNN模型。VFGNN模型将计算图分成两部分,把与隐私数据(即特征、边和标签)相关的计算留给数据持有方,而把损失函数相关的计算留给semi-honest服务器。此外,我们利用差分隐私保护数据持有方输出的信息,进一步提高模型的隐私保护能力。

1. 问题

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第3张图片

图1

在数据垂直分割场景中,假设三个数据持有方 A,B,C拥有相同的四个节点。如图1所示,特征是垂直切分的,数据持有方A的节点拥有三个维度的特征(f1,f2,f3),数据持有方B的节点拥有两个维度的特征(f4,f5),数据持有方B的节点拥有两个维度的特征(f6,f7)。与此同时,不同数据持有方上,节点之间的边不同。假设只有 A 包含节点标签信息,我们要解决的问题是,如何利用A、B、C三方的数据构建一个联邦GNN模型。

2. 方法(VFGNN模型)

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第4张图片 图2

如图2所示,VFGNN的计算分成三部分:

(1)隐私特征数据相关计算

如图2中红色部分所示,GNN的第一步是使用节点的隐私特征数据生成节点的初始embedding。在垂直场景中,数据持有方之间节点相同,但每个节点上的特征不同。首先数据持有方之间基于MPC联合计算得到每个节点上的初始embedding(如图2 step1所示),然后数据持有方利用多阶邻居上的初始embedding生成每个节点上最终的本地embedding(如图2 step2 所示)。

(2)非隐私数据相关计算

为了提高模型效率,我们将非隐私数据相关的计算放在服务器上进行。如图2中绿色部分所示,首先,服务器利用某种融合方法得到每个节点的全局embedding(如图2 step3所示),融合方法可以是求均值、求和、按列拼接等等;然后服务器使用全局embedding进行后续的计算,得到server模型的输出结果 ;最后服务器将输出结果发回给有标签的数据持有方。

需要注意的是,由于在server模型中存在很多非线性计算,如最大池化函数、Relu激活函数等。如果采用纯密态空间的方式进行计算,以同态加密为例,需要用高阶多项式对非线性激活进行近似。因为这种计算方式的准确性和效率比较低的。所以本文中服务器进行该部分模型的明文计算。这种方式不仅可以提高模型准确度,还可以大大改善模型效率。

(3)隐私标签数据相关计算

如图2中蓝色部分所示,拥有标签的数据持有方从服务器接收到 ,并计算标签的预测结果。以分类任务为例,使用Softmax函数处理 ,即:

图片.

其中c为分类的类别。标签持有方根据标签的预测值和实际值计算得到损失函数,进而进行后向传播更新所有模型。

3.核心计算步骤

本部分重点介绍图2中的三个核心的计算步骤。

(1)计算初始embedding

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第5张图片

图3

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第6张图片

图4

由于数据持有方之间的特征数据是垂直切分的,所以一般有两种方式生成每个节点的embedding,即独立计算和联合计算。如图3所示,假设有A,B,C三个数据持有方,在独立计算过程中,每一方只利用自身特征数据 和权重矩阵 ,分别计算各自的初始embedding,即:
图片
如图四所示,在联合计算过程中,数据持有方基于密码学的方法联合生成统一的初始embedding,在本文中我们采用了加法秘密分享的方法。

(2)计算本地embedding

本文中我们采用GraphSAGE的方法,根据3.1中得到的初始embedding,每一个数据持有方聚合邻居节点的信息,得到每个节点最终的本地embedding,如下面公式所示:

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第7张图片

上述公式中所示的AGG方法可以是Mean,LSTM或者Pooling等。

(3)计算全局****embedding

服务器接收到所有数据持有方的本地embedding,融合得到全局的embedding。本文中我们设计了三种融合方式:

  1. Concat。按列拼接,即:

图片

  1. Mean 求均值,即:

图片

  1. Regression 回归,即:

图片

4.隐私增强

在前向传播过程中,数据持有方将本地的embedding直接发送至服务器;在后向传播过程中,标签持有方直接将梯度发送至服务器,因此会导致隐私泄漏的风险。为了增强整体的隐私保护能力,我们引入差分隐私保护前向embedding和后向梯度。在本文中,我们采用了两种差分隐私机制:Gaussian噪声和James-SteinEstimator。噪声生成机制参考原文。

5.实验结果

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第8张图片

表1数据集统计信息

如表1所示,我们在Cora、Pubmed、Citeseer、arXiv四个图数据集上进行实验。将分布式训练中,验证集准确性的平均值作为模型的评估结果。假设只有A和B两个数据持有方,我们将特征维度平均分配给A和B,并对比不同模型在不同数据集上的效果。如表2所示,GraphSAGEA代表单独利用A方的数据进行训练得到的实验结果,相应的,GraphSAGEB代表单独利用B方的数据进行训练得到的实验结果;VFGNN_C代表利用3.3中Concat方法得到的结果,VFGNN_M代表利用3.3中Mean方法得到的结果,VFGNN_R代表利用3.3中Regression方法得到的结果;GraphSAGEA+B代表将完整数据放在一起,在GraphSAGE模型上得到的结果。

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第9张图片

表2模型准确性对比结果

从表2中可以得到,VFGNN方法无论是采用哪种融合方式,模型准确性均超过单独利用一方数据得到的结果(GraphSAGEA和GraphSAGEB)。显而易见,GraphSAGEA和GraphSAGEB只能利用部分数据进行训练,VFGNN可以利用所有数据持有方的数据进行训练,因此模型效果更优。

与此同时,由表2可得,VFGNN与GraphSAGEA+B的模型准确性近似。这是因为VFGNN在进行训练过程中,一方面,单方的初始embedding是利用了所有数据持有方的数据生成的,另一方面,虽然各方之间的边信息并不完整,但是我们采用了三种融合方法,弥补了这个弱点,

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第10张图片

表3数据拆分比例对VFGNN的影响

我们分析了数据拆分比例对VFGNN的影响,如表3所示,数据拆分比例越均匀,模型的准确性越低。这是因为在不均匀的情况下,拥有大部分数据的一方可以得到更准确的初始embedding,因此模型准确性越高。

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第11张图片

表4数据持有方的数量对VFGNN的影响

我们分析了数据持有方数量对VFGNN的影响,如表2所示,数据持有方的数量越多,模型准确性越低。这是因为图数据的边是平均分配,随着数据持有方的数量的增大,单方持有的数据就越少,因此整体模型的效果就越差。

隐语小课丨「论文研究」隐私保护纵向联邦图神经网络_第12张图片

表5差分隐私对VFGNN的影响

如表5所示,我们分析了差分隐私中不同的 对应的模型准确性, 越大,模型准确性越高,与此同时我们发现James-Stein噪声的效果明显好于Gaussian噪声,具体原因的分析详见原文3.5部分。

  • 论文之外的世界:一些技术应用分享

本篇论文研究主要聚焦垂直场景下的隐私保护图神经网络,属于隐私计算与图机器学习的交叉方向,广泛应用于医药研发、金融风控等领域。

具体来说:

高科技药企之间可以利用各自的药物分子的化学结构信息,进行联合研发,进而发现更为安全有效的药物。

银行、证劵、保险等金融公司利用各自的用户特征信息进行联合训练,可以更为精准的预测欺诈、赌博、洗钱等行为,防范金融风险,保护用户财产安全。

随着隐私保护需求的提升和图数据量的大规模增长,隐私保护图神经网络必将得到更为广泛的应用,以及给用户带来更大的商业价值。

隐语官网:

https://secret-flow.antgroup.com
隐语社区:

https://github.com/secretflow

https://gitee.com/secretflow
联系我们:

公众号:隐语的小剧场

B站:隐语secretflow

邮箱:[email protected]

你可能感兴趣的:(神经网络,人工智能,机器学习)