论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/17301
提出一种新颖的融合了反向更新和双层异步并行的垂直联邦学习框架(VFB2),以及在此框架下的 VFB2-SGD,VFB2-SVRG,VFB2-SAGA 三种新算法,助力多方协同训练模型并且不泄漏数据隐私,并在一定程度上破解垂直联邦学习算法不够高效的难点。
纵向联邦学习存在的问题:
目前有两种主流的VFL方法:基于同态加密(HE) 的方法;基于交换原始计算结果(ERCR) 的方法
本文贡献如下:
所给数据集可能应用于二分类任务模型、回归任务模型。这两个模型都可看作以下 正则化经验风险最小化问题 的例子(问题P):
m i n w ∈ R d f ( w ) : = 1 n ∑ i = 1 n L ( w T x i , y i ) + λ ∑ ℓ = 1 q g ( w G ℓ ) ⏟ f i ( w ) \underset{w\in \mathbb{R}^d}{min}f(w):=\frac{1}{n}\sum_{i=1}^{n} \underbrace{\mathcal{L}(w^{T}x_{i},y_{i})+\lambda \sum_{\ell=1}^{q}g(w_{\mathcal{G}\ell})}_{f_{i}(w)} w∈Rdminf(w):=n1i=1∑nfi(w) L(wTxi,yi)+λℓ=1∑qg(wGℓ)
其中,q为参与方数量, w T x i = ∑ ℓ = 1 q w G ℓ T ( x i ) G ℓ w^{T}x_{i}=\sum_{\ell=1}^{q}w_{\mathcal{G}\ell}^{T}(x_i)_{\mathcal{G}\ell} wTxi=∑ℓ=1qwGℓT(xi)Gℓ , L \mathcal{L} L 为损失函数, ∑ ℓ = 1 q g ( w G ℓ ) \sum_{\ell=1}^{q}g(w_{\mathcal{G}\ell}) ∑ℓ=1qg(wGℓ) 为正则项, f i : R d → R f_i:\mathbb{R}^d\to \mathbb{R} fi:Rd→R 光滑且可能非凸
各主动参与方(假设有m个)主动发起更新,在模型更新中起主导作用;其余各方被动更新(被动参与方和其余主动参与方)为合作者;为保证模型安全,只有主动参与方知道损失函数的形式,且只有主动参与方知道标签。
将本文的问题概括为:
SGD是机器学习模型中常用的方法,但由于随机梯度的固有方差,其收敛速度较差。SVRG和SAGA对此进行了改进,能够减少方差,是SGD类型中很流行两种的算法。如下的算法2为VFB2框架下SGD的实现步骤;算法3为此框架下SVRG和SAGA算法的实现步骤(SVRG和SAGA仅更新规则不同)
在算法2中,每个主导方更新,主导方会将 ϑ \vartheta ϑ 和 i i i 发送给协作者;在算法3中,参与方收到 ϑ \vartheta ϑ 和 i i i 后会发起异步协作更新。主导方计算本地随机梯度;协作方使用收到的参数进行算法3中(3:)的计算;主导方自身也需完成算法3与其他协作方进行协作,确保各方的模型参数得到更新。
本节提供了收敛性分析。
首先提出强凸和非凸问题的准备工作:
假设1:关于 f i ( w ) f_i(w) fi(w)
假设2:关于正则项 g g g
假设3:(有界时延) 主导方和它的协同方间,不一致读取和通信的时延
强凸问题的收敛性分析:
假设4:每个 f i f_i fi 函数为 µ-强凸
定义1:epoch 数 v ( t ) v(t) v(t)
定理1:对 VFB2-SGD 达到问题P的 准确性
定理2:对 VFB2-SVRG 达到问题P的 准确性
定理3:对 VFB2-SAGA 达到问题P的 准确性
备注1:三种算法的收敛速度
非凸问题的收敛性分析:
假设5:非凸函数 f ( w ) f(w) f(w) 有界
定义2:epoch 数 v ′ ( t ) v'(t) v′(t)
定理4:对 VFB2-SGD 的问题P的 一阶平稳点
定理5:VFB2-SVRG
定理6:VFB2-SAGA
备注2:三种算法的收敛速度
在安全分析中常用的两种半诚实威胁模型下,讨论VFB的数据安全和模型安全。
两种威胁模型的威胁能力不同:威胁模型2允许各方串通,而威胁模型1不允许。
定义3:推理攻击
引理1:根据所用的中间结果,能够推出无穷多个不同的解。
定理7:特征和模型的安全性;标签的安全性 -> 在两种半诚实威胁模型下,VFB2可以防止推理攻击。
进行大量实验,以证明算法是高效的、可扩展的和无损的
1 实验设置
2 数据集:UCICreditCard、GiveMeSomeCredit、news20、webspam
3 问题:µ-强凸情况下的 ℓ 2 \ell_2 ℓ2-范式正则化逻辑回归问题 和 非凸逻辑回归模型
m i n w ∈ R d f ( w ) : = 1 n ∑ i = 1 n l o g ( 1 + e − y i w T x i ) + λ 2 ∥ w ∥ 2 \underset{w\in \mathbb{R}^d}{min}f(w):=\frac{1}{n}\sum_{i=1}^{n}log(1+e^{-y_iw^Tx_i})+\frac{\lambda }{2}\left\| w\right\|^2 w∈Rdminf(w):=n1i=1∑nlog(1+e−yiwTxi)+2λ∥w∥2 m i n w ∈ R d f ( w ) : = 1 n ∑ i = 1 n l o g ( 1 + e − y i w T x i ) + λ 2 ∑ i = 1 d w i 2 1 + w i 2 \underset{w\in \mathbb{R}^d}{min}f(w):=\frac{1}{n}\sum_{i=1}^{n}log(1+e^{-y_iw^Tx_i})+\frac{\lambda }{2}\sum_{i=1}^{d}\frac{w_i^2}{1+w_i^2} w∈Rdminf(w):=n1i=1∑nlog(1+e−yiwTxi)+2λi=1∑d1+wi2wi2
对异步效率和可扩展性的评估
1 异步效率
VFB:有BUM的同步VFL算法;设置1个比最快方慢30%-50%的掉队方,以模拟资源不平衡的真实应用场景。
设置 q=8,m=3(参与方与主动参与方数量)。
从图中可以看出,我们的算法在效率上始终优于同步算法;基于SVRG和SAGA的算法比基于SGD的算法收敛速度更快。
固定m,变换q,设置如下定义(运行时间指达到一定精度时所用的时间):
从图中可以看出,我们的异步算法比同步算法有更好的可扩展性,可以实现接近线性的加速。
对无损的评估
比较了 VFB2-SVRG、其非联邦版本 NonF (所有数据集合在一起训练)、基于ERCR的算法 AFSVRG-VP (他人提出的,也使用了分布式SGD方法;但是没有BUM,只能优化主动参与方的参数,这里假设有标签的参与方有一半)