分布式机器学习三

联邦学习

联邦学习是机器学习最近的一个大热点,它是一种分布式机器学习。

分布式机器学习三_第1张图片

分布式机器学习三_第2张图片

分布式机器学习三_第3张图片

联邦学习是2015年提出来的,其本质就是分布式机器学习,方法上没有太多新意。

分布式机器学习三_第4张图片

1. 用户对设备和数据有绝对控制权

2.终端设备不稳定,有人手机关机或计算性能差。

3.网络开销大,远程传输。

4.数据不是独立同分布,每个设备上数据性质可能不一样(图片和文本),这样一些减少传递次数的算法就不适用了。

5.数据不平衡,有的设备数据量大,有的数据量小。这样导致计算时间长短不同,每人权重也不好设置。

联邦学习的研究方向

主要研究方向就是如何降低通信次数,哪怕计算量很大,但只要能减少通信次数就是值得的。

分布式机器学习三_第5张图片

多做计算少做通信,在本地做计算,得到比梯度更好的下降方向,然后传给server做参数更新,由于这个方向比梯度更好,所以收敛更快,迭代次数少了,通信就少了。这就是基本想法。

可以在用户设备充电时做计算,手机计算能力提高了很多,不会影响用户体验。

分布式机器学习三_第6张图片分布式机器学习三_第7张图片

分布式机器学习三_第8张图片

本地数据扫一遍叫一个epoch,重复a、b 一至五个epoch。重复几次后w就不是一开始从server发来的w了,前面的梯度下降不重复ab两步,只算一次梯度然后把梯度发给server, 二联邦学习在本地对参数w做多次改进再把w发给server, 这样在一次传输之间,可以把梯度做很大改进而不是一次梯度下降。

分布式机器学习三_第9张图片

分布式机器学习三_第10张图片分布式机器学习三_第11张图片

这个算法以牺牲计算量为代价,换取更少的通信次数。联邦学习的计算代价小,通信代价大所以这种算法还是很有用的。

分布式机器学习三_第12张图片

第一篇第一次提出联邦学习,只有算法和实验,没有理论分析。第二篇证明了联邦学习能收敛,而且通信量比随机梯度下降少,但它假设数据是独立同分布的,对于实际场景没意义。第三篇是本视频作者他们写的,证明了非独立同分布情况下的收敛。文章四晚一些,也证明了不需要独立同分布的假设。

分布式机器学习三_第13张图片

通信是分布式机器学习中很大的问题,早就有很多文章研究通信问题,思路都是增加计算量来减小通信次数,但都要求数据是独立同分布的,不适用与联邦学习,Primal-dual这个文章没假设数据是独立同分布,但不适用于深度学习,神经网络很难求对偶问题。

联邦学习第二个研究方向:信息保护

分布式机器学习三_第14张图片

只传参数或梯度,看起来安全,但随机梯度就是用户本地一个batch的数据经过一个函数转换得到的。

分布式机器学习三_第15张图片

梯度包含了数据的信息,所以用梯度可以反推出数据的,不一定完全准确,但关键信息会泄漏。

分布式机器学习三_第16张图片

分布式机器学习三_第17张图片

梯度作为输入的特征向量,经过分类器分类,可以判断用户属性(性别、年龄、种族等等)。

分布式机器学习三_第18张图片

防御办法,在梯度中加噪声,但效果不好,噪声加小了,仍然能被反推出数据,加大了不好收敛,噪声加的越多机器学习效果越差。

第三个研究方向是联邦学习的鲁棒性

让联邦学习可以抵御拜占庭的错误和恶意攻击。

分布式机器学习三_第19张图片

拜占庭将军问题:工程时有一个叛徒发出错误信息。

分布式机器学习时有一个节点故障但没挂掉,就会给其他节点发错误信息,导致整个系统错误。联邦学习要有一个节点估计使坏,把自己数据和标签做修改,那么传给server的梯度就是有害的,学到错误的模型

分布式机器学习三_第20张图片

文章一,对训练数据中的一部分图片做一些特精心设计的小修改,这些扰动相当于毒药,模型会犯一些很特殊的错误。针对于普遍的深度学习,将其应用到联邦学习也很容易,work节点用毒药计算出梯度然后传给server,会让模型反特定的错误或留后门。

文章二就是把一些样本的标签做修改,比较简单。

防御方面,第一个防御文章,比较容易想到,server用某个work传递的梯度更新参数然后把测试集测试,如果准确率下降则放弃该梯度,但这种用处不大,work和server数据不一样,联邦学习看不到work上的数据,而且即使正常,单个work计算出的梯度也可能使准确率更差,只有把work平均起来才能变得更好。

第二种,是假设数据是独立同分布的,那么所有work计算出的梯度差距不大,如果差距大就说明work异常,因为联邦学习数据不满足独立同分布,所以不适用。

第三个文章,不是对梯度加权平均,而是用中位数,但可能也不行,因为这些文章都假设数据独立同分布的。

目前联邦学习还没见到真正有效的防御。

分布式机器学习三_第21张图片

分布式机器学习研究十年了,联邦学习很多想法都在分布式机器学习中研究过了。

分布式机器学习三_第22张图片分布式机器学习三_第23张图片分布式机器学习三_第24张图片

你可能感兴趣的:(分布式机器学习,机器学习)