联邦学习开源框架FATE LTS版本发布,全新客户端套件助力高效开发

联邦学习开源框架FATE LTS版本发布,全新客户端套件助力高效开发_第1张图片

注:微信公众号不按照时间排序,请关注“亨利笔记”,并加星标以置顶,以免错过更新。

我们 VMware 云原生实验室的团队在参与联邦学习领域的开源项目 FATE 和 KubeFATE 的贡献,帮助用户应对连接数据孤岛、打破部门墙的挑战,即解决人工智能的最后一公里的问题。本文转发自 FATE开源社区 公众号。

企业发展到一定阶段,各事业部之间的数据往往都各自存储,各自定义。每个事业部的数据就像一个个孤岛一样,无法进行连接互动。又或者不同机构组织间,受隐私保护条例法律的约束,无法进行关联交互,这样的情况称为“数据孤岛”。

为了连接不同组织机构间的数据,使数据得到更大的应用价值,微众银行人工智能部提出了基于“联邦学习”的系统性的通用解决方案,并在2019年开源了全球首个工业级开源框架——FATE。

经历了近两年的沉淀,FATE在近期发布了首个长效稳定版本v1.5(下称LTS)。这两年期间,FATE在开源仓库GitHub上,FATE团队累计合入提交代码7600+次,根据调研需求完成上百项不同用户场景的功能新增与迭代。通过开源社区大量不同行业领域的用户,不同应用场景的生产环境反馈积累,FATE得到了全面的完善提升。

据官方团队介绍,此次版本规划将会持续维护两年以上,为商业化应用提供稳定基础,未来将持续探索多方联合建模,数据应用的更多可能性。同时经历过系统框架层重构后,不仅在性能表现上有长足的进步,1.5LTS版本还具备优秀的灵活扩展性,用户可以便捷按需取用不同模块,进行二次开发。

以下为FATE v1.5 LTS版本

各模块的详细介绍

FederatedML

性能再翻番,覆盖更全面的联邦算法,提升工业实用性

作为长效版本,我们吸取了来自众多行业的社区用户生产经验,为了兼顾不同领域的场景,我们加入了更多的算法、协议等,如新增纵向联邦FastSecureBoost、纵向联邦SecureBoost的complete secure机制、DataStatistic、纵向KMeans、评分卡,以及Oblivious Transfer协议和RandomIterativeAffine同态加密协议。

除此以外,针对已有算法进行升级与优化,如纵向FTL的全新重构,使得性能比上一版本呈指数级的提升;纵向联邦 SecureBoost 直方图统计过程使用矩阵运算对高维稀疏数据优化;纵向联邦 SecureBoost 预测性能优化,预测交互次数降低为树最大深度,在100 颗树下能达到32倍的性能提升;纵向特征选择全新升级,增加 SecureBoost 特征重要度&特征PSI指标过滤器;纵向联邦特征分箱计算逻辑优化,性能提升30%-50%;纵向GLM计算逻辑优化,性能提升10%+。更多的提升体验,欢迎前往github.com/FederatedAI获取体验。

FATE-Flow

易扩展,高可用

FATE-Flow是联邦学习框架FATE的作业调度系统,实现联邦学习作业生命周期的完整管理,其中包括数据输入、训练作业调度、指标追踪、模型中心等功能。

此次版本更新,核心的调度能力升级,支持组件多输出、组件任务并行和组件任务重跑;资源调度能力升级,依据不同计算引擎,支持调整核数、内存、工作节点数粒度。除此以外,还新增了DSL v2、模型注册中心,以及适配各种数据源的数据读取组件,大大地提升了易用性。

FATE-Client

全新的fate调用方式

FATE-Client包括Pipeline、Flow CLI v2和Flow SDK,通过发布pypi包的形式,用户通过pip指令可以直接安装和使用,这个fate 第一次提供这样的调用方式,简化用户使用pipeline或者fate cli指令的流程。

FATE-Test

自动化、自动化、自动化,重要的事情说三遍

FATE-Test模块是fate-1.5版本的新特色,目前提供全面回归fate算法库所有功能,以及常用的建模算法中心化训练与FATE联邦训练的正确性对比,及算子调用和传输时间统计。

将来,FATE-Test模块会集成更多新的功能,比如大数据压力测试、多任务并发等等,自动化测试是未来的终极目标。

FATE-Board

数据与交互解耦,效率与流畅度提升

FATEBoard是联邦学习建模的可视化工具,旨在帮助用户简单而高效地理解模型与探索模型,从而更有效地调试和改善模型效果。

这次丰富的更新,提供更多新增算法模型的可视化,并提升已有算法模型的可视化,同时图形界面的可操作空间也有提升,如任务重试以及从FATEBoard下载算法组件的模型和数据等。


以上为FATE各个模块的详细介绍。此次更新,FATE系统整体的结构弹性化是一重要的优化。全新的架构,支持了不同的计算、存储、传输引擎结合,以及新增的Spark、HDFS、RabbitMQ引擎,新增的数据表管理功能,储存引擎统一的API,都在帮助不同行业领域用户,按需取用FATE不同的功能模块。

据介绍,新增的能力有许多是来自于开源社区中的体验反馈,也因为不断反馈到不断实现的正循环,FATE开源社区已经壮大至超过500家企业与220所高校等科研机构的开发团队参与共建。

这次FATE LTS的版本,除了总结这近千个合作伙伴的业务场景经验,给予稳定工业生产的版本更新以外。团队将会挖掘未来商业化的可能性,如近期开源的联邦学习云服务——FATE Cloud,该模块使FATE可实现多云管理,形成了一种安全的联邦数据网络。旨在为跨机构间、机构内部不同组织间提供安全可靠、合规的数据合作网络构建解决方案,提供企业级的联邦学习生产力应用解决方案。开源仓库位于GitHub/FederatedAI/FATE-Cloud,欢迎前往获取。

对用户关注的联邦学习平台运维管理,可以使用 KubeFATE 项目的云原生解决方案。更多细节将在后续文章中介绍,敬请关注。

相关文章:

用KubeFATE在Kubernetes上部署联邦学习集群

KubeFATE 部署多集群联邦学习平台 FATE

详情可查阅 FATE / KubeFATE 官网项目文档:

https://fate.fedai.org/contribute/

https://github.com/FederatedAI/KubeFATE

知乎:FedAI联邦学习

CSDN:FedAI Ecosystem

bilibili:FedAI联邦学习


要想了解云原生、区块链和人工智能等技术原理,请立即长按以下二维码,关注本公众号亨利笔记 ( henglibiji ),以免错过更新。

你可能感兴趣的:(算法,人工智能,大数据,编程语言,python)