联邦学习 群雄逐鹿:微众fate与富数fmpc的最新版本实战性能对比

摘要:  最近一直在研究跟联邦学习相关的东西,现在的参考资料也越来越多,热度也十分火热。百度、阿里、腾讯、富数、清华、微众银行、平安科技等多家机构都在不同场景中进行战略布局。这其中主要解决的场景问题,笔者总结如下

 · 个人隐私保护 以互联网营销、互联网信贷为例,依赖大量的用户第三方数据补充用户画像、拉新、提升用户活跃度、提高大数据风控能力,然而随着互联网金融数据监管时代的来临,对个人隐私保护,敏感数据获取,存储,使用有了更多的限制。


 · 打破数据孤岛 巨头数据厂商都拥有海量的用户行为数据,消费能力,消费偏好等,也就是说巨头们拥有很多X, 对于其他拥有各自业务的企业而言,拥有其业务相关的Y,双方各自都有需。数据合规性方面,企业间的数据不能直接进行传输;但是行业要发展,躺在服务器中的数据不能发挥价值是不允许滴;


笔者有幸体验到了最新版本的微众fate与富数fmpc的联邦学习平台。做了点笔记记录两个平台的性能对比,主要是联邦学习相关性能对比,不涉及多方安全计算及统计

这次评测运行机器的配置信息以及对比了哪些指标?

机器信息

两台独立物理机,40核128G

对比指标

· 性能——两个平台各自运行任务需要多长时间才能得出模型结果?

· 准确性——两个平台处理任务得到结果之间的对比

两个平台任务处理流程如下

数据添加 - 数据预处理 - 特征工程 - 模型训练 - 模型评估 - 模型发布

样本准备

本次测试采用了一些真实的业务样本,以相同参数对两个产品的不同算法进行了对比测试,训练结果如下:

注:所有测试任务使用密钥长度均为1024 ,训练/测试比为7:3

LR算法测

联邦学习 群雄逐鹿:微众fate与富数fmpc的最新版本实战性能对比_第1张图片

 

两平台在训练时若数据未做归一化处理都会发生梯度爆炸导致训练结果失真。

其中FATE在训练10W*800样本时(做过归一化后)发现loss值虽在小范围内波动,但最终结果亦没有达到收敛

Ps:可能是由于参数设置原因导致,不知道其他使用FATE产品的同学是否有遇到过类似问题,欢迎留言讨论。

树类算法测试

接下来笔者以同样规格数据样本,对树类算法进行测试得到结果如下:

联邦学习 群雄逐鹿:微众fate与富数fmpc的最新版本实战性能对比_第2张图片

测试过程中

FATE-secureboost任务时发现模型实际训练时的参数与文件配置中的不一致文件设置深度为3(图一),实际训练深度为5(图二)。可能算法内部参数被写为固定值。

FMPC输出日志信息较少,无法在训练过程中跟踪观察loss、梯度等指标

联邦学习 群雄逐鹿:微众fate与富数fmpc的最新版本实战性能对比_第3张图片

总结,通过上面的两家平台性能评测,我们可以对比看出

总体效率:

FMPC较FATE提升3-5倍,其中在大样本集训练上增速明显。

总体准确度:

FMPC与FATE精确度基本一致

算法丰富度:

FATE新增多款联邦推荐算法

产品易用性:

FATE可扩展性强,但学习成本高;FMPC界面操作简单,上手快

其他信息:

FATE目前不支持多个任务同时运行,可以同时建立多个任务,但同一时间只能运行一个算法任务

更多平台对比评测若有信息更新,请关注公众号,等待后续

你可能感兴趣的:(联邦学习,多方安全计算,区块链)