联邦学习小白浅析通俗易懂

联邦学习浅析

  • 提出背景
    2016年是人工智能开始成熟的一年,发现他的巨大潜力,他依赖于大量可用的标记数据,根据大数据驱动,人们希望人工智能体现在生活的方方面面,但是这是有一定难度的,因为由于各个领域的不同,数据也不能完全共享,只有少量数据或者低质量的数据可共享,标记数据又非常昂贵,特别是一些需要专业知识的领域。那么如何综合多行业数据进行精准预测是目前人工智能技术应用到航空领域亟需解决的问题。(小白在这里刚刚接触联邦学习,并且主要方向是民航方向的研究)。

  • 联邦学习是如何定义的:
    联邦学习通俗来说就是解决跨孤岛问题而来的,是一种机器学习,其中许多客户端(比如说移动设备或整个组织)在中央服务器(服务供应商)的协调下共同训练的模型,同时保持训练数据的去中心化及分散性。
    联邦学习提出了一种解决问题的新思路:数据不动,模型动。联邦学习小白浅析通俗易懂_第1张图片
    这就好比说传统的都是把各个数据买过来,进行使用,但是这么做代价成本太高。联邦学习精髓就是数据不动,模型动,让羊去各个操场,那么羊也长大了,但是主人不知道他吃了哪些草。(羊相当于机器学习模型,草相当于一个一个的数据孤岛,现在有了法律法规相当于是墙,因此羊不可以随便乱吃,过去做法把草买到一起来建立模型。)

  • 联邦学习的分类及其算法过程概述:
    联邦学习根据不同的应用场景可以分为三类:
    (1)横向联邦学习:(样本不同,特征重叠)
    通俗理解:比如说手机有各个型号的手机,但是手机的功能大致相同。
    联邦学习小白浅析通俗易懂_第2张图片
    建模过程:
    联邦学习小白浅析通俗易懂_第3张图片
    第一步:各个终端在各自的本地中进行建模Wi;
    第二步:根据本地模型的Wi进行加密;
    第三步:上传加密后的Wi;
    第四步:在服务器端利用传统的FedAvg等算法进行整合为W;
    第五步:把整合过后的W下传到各个终端;
    第六步:把Wi更新为W;
    此过程不涉及数据的暴露,都是模型参数进行交流。
    (2)纵向联邦学习:(样本相同,特征不同)
    通俗理解就比如说有两家不同的机构,但是他们面对的人群可能相同但是他们的业务却不相同。
    联邦学习小白浅析通俗易懂_第4张图片
    建模过程:
    前提是A有一部分模型,B有一部分模型。它们之间只能通过加密的数据进行交流,他们之间也不知道对方的数据特征。
    分别计算A做一部分模型,B做一部分模型;
    A:点积+加密+发给B
    B:拿到之后,可以与真值进行比对,得到一个loss,发给A,当然也可以发给组织者这样可以简化流程。
    组织者拿到传过来的模型之后,可以加一点噪音然后进行加密在发给A、B进行本地模型数据的更新。

  • 优势:
    解决数据孤岛+数据隐私保护(在详细查资料)
    (1)数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求;
    (2)能够保证模型质量无损,不会出现负迁移,保证联邦模型比割裂的独立模型效果好;
    (3)参与者地位对等,能够实现公平合作;
    (4)能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长。

  • 面临的挑战:
    (1)数据并不是独立同分布;
    (2)通信很慢。

  • 主要的研究方向:
    方向一:communciation-efficent algorith
    方向二:Defense against privacy leakage
    方向三:Robustness to Byzantine faults

  • 相关综述:
    联邦学习小白浅析通俗易懂_第5张图片
    联邦学习小白浅析通俗易懂_第6张图片
    联邦学习小白浅析通俗易懂_第7张图片

    如有侵权,立刻删除。

你可能感兴趣的:(笔记)