Efficient Participant Contribution Evaluation forHorizontal and Vertical Federated Learning

论文链接:https://ieeexplore.ieee.org/abstract/document/9835159?casa_token=tAKz5UFwHcQAAAAA:Dpab22Nq0_aH7wRk1eHImK47y3uVjp7ocsZ8U2DvavpL_OvQxPt1T1qgTM3qWH3SSr3Xk3ii99eC

 中国科学技术大学计算机科学与技术学院  IEEE ICDE 2022. (CCF推荐A类会议)

(横纵联邦学习中高效参与者贡献评估)

摘要:

依赖参与者的局部数据——>测量参与者的贡献(参与者的选择和激励分配)

以往采用沙普利值作为贡献分配,但存在需要反复进行“遗漏”再培训,从而导致FL的成本过高

提出高效的方法DIG-FL:无需任何模型再训练即可估计每个参与者的 Shapley 值,适用于横向和纵向联邦学习

重新权重机制,通过根据参与者的每周期贡献动态调整参与者的权重来提高模型训练的准确性和收敛速度,并从理论上分析了收敛速度

        沙普利值(Shapley value)是博弈论中的一个概念,用于评估参与博弈中每个玩家的贡献,以便将收益分配给他们。 在联邦学习中,沙普利值被用来评估参与协作训练的每个设备对联邦模型的贡献,以便将全局模型的准确性损失分布方式进行公平合理的分配。

        是一种用于度量模型性能的指标,它可以用来评估每个特征对于模型预测结果的重要性。Shapley value 通常用于解决联邦学习中的一个关键问题,即在多个局部模型训练过程中,如何公平地衡量各个特征的贡献。
        在联邦学习中,由于各个局部模型训练的数据可能存在差异,因此直接使用诸如权重或指数之类的方法来衡量特征的重要性可能会导致不公平的结果。Shapley value 则通过一种更为公平的方式来评估特征的重要性。具体来说,Shapley value 度量的是特征在所有可能的特征子集中的平均贡献。换句话说,它考虑了特征在所有可能的数据组合中的重要性。
通过使用 Shapley value,联邦学习可以更准确地衡量各个特征对于模型性能的贡献,从而在训练过程中更好地调整特征权重,提高模型的整体性能。

存在问题:

识别持有低质量数据的参与者至关重要,但参与者本地数据的不可见性

需求:

有效的方法来衡量 FL 系统中参与者的贡献

出发点:

(1)它可以帮助我们通过追溯分布式训练数据集来理解 FL 模型的行为;

(2)它可以定位低质量的参与者,从而减少其影响,以减轻性能下降或避免对抗性样本攻击;

(3)训练过程中,可以根据参与者的贡献来调整参与者的权重,以促进模型收敛;

(4) 对于FL的商业用途,需要根据参与者的贡献对参与者进行公平的信用/奖励分配。

目标:

提出一种高效的方法来准确评估每个参与者对 VFL 和 HFL 的 Shapley 值贡献。获得贡献评估后,设计公平的激励机制,局部化低质量的参与者或重新分配参与者的权重,以提高模型性能和收敛速度。

实现目标所面临的挑战:

(1)如何以最小的额外成本(应远小于培训成本)准确衡量每个参与者的贡献? Shapley 值提供了一种原则性的方法,其特征是一组理想的属性,用于评估每个参与者对整体协作学习的重要性。根据 Shapley 值的定义,现有方法需要以指数方式重新训练模型或测试模型性能,这对于 FL 来说成本高昂。因此,理想的方法应该评估贡献,以最小的额外成本接近实际的沙普利值。

(2) 如何设计一种适用于 VFL 和 HFL 的通用方法,特别是对于使用不同密码技术的 VFL? HFL 和 VFL 具有完全不同的架构,并且它们都具有跨广泛应用的不同框架 。设计一种适用于各种 FL 框架的方法并非易事。

(3)在评估参与者的贡献时如何尊重参与者的数据隐私?参与者本地数据的不可见性是FL最吸引人的特点。因此,需要在不访问本地数据的情况下衡量每个参与者在培训过程中的影响。这是具有挑战性的,因为现有的贡献测量方法通常需要额外的计算和传输,这会导致隐私风险。

具体方式:

使用 Shapley 值来衡量每个参与者的贡献,并首先通过留一法模型再训练将效用函数定义为验证数据集上损失的变化。然后,从理论上分析了每个参与者对全局梯度和效用函数的影响,并证明移除每个参与者引起的效用函数的变化满足可加性。利用可加性,将 Shapley 值的指数计算转化为线性计算。此外,利用训练日志来计算实际 Shapley 值的近似值,这不需要额外的模型训练或访问本地数据。

你可能感兴趣的:(汇报论文,联邦学习,人工智能,机器学习,深度学习)