联邦学习初探

    随着机器学习技术的逐渐成熟,单纯依靠算法能够获得的效果提升已经逐渐触顶。在很多应用场景中,由于受限于数据(特征),往往很难得到理想的效果。以金融风控为例,对于以往缺少借贷记录的用户(即白户),仅仅依已有的数据,通常很难进行合理的信用评估。对于此类情况,按照以往的做法,需要借助第三方扩充有效特征。

联邦学习初探_第1张图片
图  1

    这样的做法看似可行,却并非好的解决方案。一方面,为了维护用户隐私,第三方提供的多为粗粒度标签特征(如兴趣爱好,年龄范围等),此类特征在具体应用下的有效性非常有限。而另一方面,即便是粗粒度的标签特征,仍然存在一定程度上隐私泄露。在个人隐私越来越受到重视的时代背景下,这种模式注定很难走得远。

    联邦学习的出现正是为了解决以上问题。从架构上来说,联邦学习的做法可以看成将一个大的模型分解成了多个分布在独立环境的子模型,而训练过程则可以看做是这多个子模型的协同(join)。不同于以往的做法,在联邦学习中,子模型之间的协同不涉及用户数据(特征)的传输,仅仅传输局部预测结果和梯度即可,从而从根本上杜绝了数据泄露的风险。在这种模式下,各方可以充分利用自身的数据,从而大大提升最终效果。


联邦学习初探_第2张图片
图 2

    显而易见的是,联邦学习对于企业合理合法地拓宽数据边界具有很大意义。然而作为一个相对年轻的技术体系,仍然有许多问题需要在实践中探索。如多方数据的匹配度问题,协同训练的性能问题等。值得注意的是,在微众银行近期开源的FATE项目中,上述问题都有了初步的解决方案。关于这方面的内容,在日后结合FATE分析和总结。

你可能感兴趣的:(联邦学习初探)