【学习笔记】联邦学习产品与应用展望

概述

联邦学习是为了解决数据所有权及数据隐私问题,以运用新技术为手段,达到不同来源的数据保留在本地的同时,能够通过机器学习联合建模的方式,达到应用成果的目的。
特点:
1、参与各方的数据均保留在本地,避免隐私的问题;
2、参与各方联合建模,共同分享成果;
3、参与各方地位平等;
4、性能充分逼近和各方将数据放在一起建模。(评价指标:准确度、召回度和F1分数)

联邦学习分类

总的思路是根据参与方之间数据的差异性进行分类。将数据按照两个维度分类:例如一个事实表,每一行表示一个样本数据,每一列表示一个维度。则有以下四种情况:
1、不同的参与方之间的样本数据重合度高,维度相差较大:适用于纵向联邦学习;
2、不同的参与方之间的样本数据重合度小,维度相差较不大:适用于横向联邦学习;
3、不同的参与方之间样本数据重合度小,且维度相差也大:适用于联邦迁移学习;

相关概念

多方安全计算:从每一个参与方的隐私输入中计算函数的结果,不用将这些输入展示给其他方,且只能获得输出值。
检验标准:仿真范式(simulation paradigm)。为了证明安全多方计算协议在仿真范式下可以抵御使t个勾结方,需要构建一个模拟器,当给定t个勾结方的输入和输出 时,生成t个交互序列,从而使生成的交互序列与实际协议中生成的交互序列之间无法区分。
同态加密:对于一段密文进行一进行有效操作(不需获知解密密钥的前提下),从而允许在加密内容上进行特定代数运算的加密方法。
差分隐私:一种数据安全性保障理念,即函数的输出结果对数据集中的任何特定记录都不敏感。差分隐私能被用于抵抗推理攻击。

开源平台

**Federated AI Technology Enabler(FATE)**由微众银行人工智能项目组发起的一个开源项目,该项目提供了一个安全的计算框架和联邦学习平台,以支持联邦人工智能生态的发展和运作。FATE平台实 现了一种基于同态加密和多方计算的安全计算协议,支持一系列的联邦学习架构和安全计算算法,包括逻辑回归、决策树、梯度提升树、深度学习和迁移学习。
**TensorFlow Federated (TFF)**是一个为联邦学习和其他计 算方法在去中心化数据集上进行实验的开源框架。TFF让开发者能在自 己的模型和数据上模拟实验现有的联邦学习算法,以及其他新颖的算 法。TFF提供的联邦学习模型训练模块也能够应用于去中心化数据集 上,以实现非学习化的计算,例如聚合分析。
coMind是一个训练面向隐私保护联邦深度学习模型的开源平台
Horovod 由Uber创立,是一个深度学习的开源分布式训练框 架。它基于开放的消息传输接口(Message Passing Interface,MPI)并工作在著名的深度学习框架如TensorFlow和PyTorch的顶层。

应用场景

基于联邦学习的技术特点与优势,其已应用、展望应用的场景有:

1、银行信贷

银行方对于以小微企业为代表的的机构信贷需求时,难以获取足够的有效数据以进行风控。消费金融类企业对于贷款客户具有同样的问题。联邦学习产品可以通过多维度建模,从同类相关方获取多种Y类数据,增加样本量。设立多源数据融合机制,获取税务、交易、工商信息等X维度数据,进行纵向 建模。

2、医疗

AI技术已经在医疗领域得到了长足的发展,但总体仍处于起步阶段。例如,用于心脏病和放射学的AI程序已被开发出来,可用来帮助诊断心脏疾病和识别早期癌细胞。医疗AI发展的一个关键因素是,很难收集到足够数量的、具有丰富特征的、可以用来全面描述患者症状的数据。举个例子,为了准确 地诊断出一种疾病,我们可能需要从多个数据源收集多样性的特征,包括疾病症状、基因序列、医疗报告、检查结果及学术论文等。但是,目前并没有一个稳定的数据源可以囊括所有这些特征,并且大部分的训练数据并没有被标注。 为了打破这个瓶颈,各医疗机构可以联合起来,按照隐私保护条例共享各自的数据。这样,我们就可以得到一个足够大的数据集来训练模型,该模型的性能比在单一医疗机构的数据上训练得到的模型优秀。如果未来有相当数量 的医疗机构能够通过联邦迁移学习参与到数据联邦的构建中来,医疗AI 将能为更多的患者带来更多的益处。

3、智慧城市

瓶颈现状
(1)强调技术而忽视参与。强调大型企事业单位的信息化和平台 建设,却忽视大多数小企业的参与程度。
(2)数据孤岛和数据碎片。城市管理中的数据、应用和部门职责缺失问题依旧没有解决。
(3)智能系统的安全风险。对于信息安全、运营安全、网络安全的重视不够,增加了城市管理的成本和风险。
(4)缺乏可持续的经营模式。市场参与机制不够全面。需要建立可持续、公平公正、受市场规则约束的收益共享和奖励机制。
解决:
(1)促进小企业与大企业、政府合作;
(2)避免监管风险、隐私问题等;
(3)联邦学习激励方法 (FLI)以合理的方式在参与方之间分享由数据联盟产生的收益

4、消费品

拉通三个特征数据:用户购买能力、用户个人偏好、产品特点。对应金融机构、银行、社交网站三个不同部门或企业的异构数据

你可能感兴趣的:(个人笔记总结,人工智能,机器学习,产品经理)