隐私与安全

联邦学习的根本目标是为了保障数据信息安全,但是在不同的场景,不同的主体对于隐私和数据安全的要求或者定义不相同。因此在联邦学习中,参与方们在进行隐私保护下的机器学习之前需要定义数据安全的概念,达成共识。

在联邦学习中,我们有以下4个假设:

1. 所有参与方们都是诚实但好奇的。所有的参与方们会遵循联邦学习的数据保密规则,但同时他们也会利用所得到的所有信息去推测其他参与方的数据信息。

2. 在参与方们之间存在潜在的恶意的一方,该参与方会通过控制或者篡改自己数据去影响联合建模的效果。

3. 零知识和一些知识的博弈。零知识是一种理想的状态,指的是在联合建模之后,参与方们对彼此的数据信息一无所知。但是零知识的现象伴随着高度复杂的系统和传输方式,在实际中并不可取。在数据安全的假设允许建模的参与方们知道对方部分的非关键信息,在一些知识假设下的联合建模可以达到更高的系统效率。

4. 联邦学习既存在中心也存在节点,安全定义需要防御恶意中心和恶意数据节点。

联邦学习的安全主要涉及三个方面:数据安全、隐私保护、传输安全。

数据安全

原始数据或能够推测出原始数据的数据,不应泄漏给其他参与方、协调方或用户。假设有K(k>1)方参与联邦学习建模。其中有一方怀有恶意,其试图从交互的中间结果推断其他参与方的训练数据。数据安全要求恶意攻击成功率小于仅使用联邦学习最终模型的成功率,也就是说,在联邦学习过程中,任何参与方都不能从交互的信息中直接或间接获得其他参与方的数据。

隐私保护

交互的数据在加密前后,不应包含能够被定位到个体的数据。联邦学习隐私保护要求联邦学习算法不能泄露任何个人信息,可类比于差分隐私。在联邦学习中,我们不仅希望最终结果不会泄露用户信息,甚至在建模过程中,用户信息也不会被泄露给其他建模参与者。

传输安全

数据传输的协议及软硬件应安全可靠。

隐私保护的技术工具

在定义了数据安全之后,参与方们需要使用工具来进行数据的隐私保护,主要的工具包括安全多方计算,同态加密,私密共享和差分隐私,以下主要介绍各个工具的优缺点。

安全多方计算优点在于可以保证知识在信息层面的数据安全,缺点在于信息传输量大。为了降低数据传输成本,参与方们可能需要在降低对数据安全的要求来提高训练的效率。

同态加密的优点在于对所有数据进行加密处理,参与方们接收到的是密文,无法推理出原始数据信息,保障了数据层面的安全,缺点是计算效率低。在实际应用中,为了提高计算效率,参与方们一般采用半同态加密,半同态加密可以在密文上做加法和乘法运算。

私密共享需要信任第三方的存在,优点在于计算效率较高,缺点在于信息传输效率低,因为需要做多次的传输。

差分隐私优点在于保证数据信息安全,通过在参与方各自的原始数据上不断加噪音来减弱任意一方数据对于整体数据的影响,缺点在于牺牲训练效果,过多的噪音会降低模型训练的效果,因此参与方们使用差分隐私时需要在数据安全和准确度上做取舍。研究表明,在联邦学习中,如果参与方数量较少,用差分隐私来进行数据的隐私保护,模型的准确率会较低。

模型稳健性

在大规模联邦学习中,有成千上万的参与者,其中很可能存在恶意参与者。在这种情况下,联邦学习算法应保持稳健:当少量参与方提供恶意数据时,训练结果应维持正常,或与正常结果相差不大。当面对后门攻击时,模型也依然产生正确结果。

投毒攻击发生于数据训练之前。攻击者意图修改训练数据,从而导致模型训练结果在正常测试数据上表现异常。后门攻击是一种特殊的投毒攻击,比普通投毒攻击更具有威胁性。攻击者试图控制模型输出,使得模型在面对正常测试时也能进行预测。鉴于联邦学习算法有大量的参与者,在面对投毒攻击时保持稳健显得尤为重要。

投毒攻击发生于数据训练之前。攻击者意图修改训练数据,从而导致模型训练结果在正常测试数据上表现异常。后门攻击是一种特殊的投毒攻击,比普通投毒攻击更具有威胁性。攻击者试图控制模型输出,使得模型在面对正常测试时也能进行预测。鉴于联邦学习算法有大量的参与者,在面对投毒攻击时保持稳健显得尤为重要。

你可能感兴趣的:(隐私计算,联邦学习,多方安全计算)