《联邦学习实战》杨强 读书笔记十四——构建公平的大数据交易市场

当数据具有资产属性之后,数据便可以直接或者间接地为公司、为社会创造价值和收益,并且可以作为一种特殊的商品在市场中进行交易。

与传统的商品交易相比,数据资产交易的市场前景更广阔,但同时也面临着很多的挑战,主要包括:

  1. 数据的质量、价格如何定义
  2. 在合法合规的前提下,数据的交易如何确保不会泄露用户的隐私
  3. 如何构建合理的激励机制来鼓励更多的参与方加入数据交易市场中

大数据交易

数据交易的定义

数据交易是指一种对数据进行买卖的行为,大数据交易由三方共同参与,分别为数据提供方、大数据交易平台和数据需求方:

  1. 数据提供方主要包括政府机构、大型的商业公司和第三方(公共)的数据源,它们一般通过收集个人用户的行为数据得到。
  2. 交易平台则是数据交易行为的重要载体,可以促进数据资源整合、规范交易行为、降低交易成本、增强数据流动性。当前的数据交易平台主要分为下面的三种模式:
  • 大数据分析结果交易:即交易的对象不是原始的基础数据,而是根据需求方要求,对数据进行清洗、分析、建模、可视化等操作后形成处理结果再出售。这种交易模式的一个典型平台就是贵州大数据交易所。由于这种交易模式交易的对象是经过分析处理后的结果数据,不是原始数据,在一定程度上规避了困扰数据交易的数据隐私保护和数据所有权问题。
  • 数据产品交易:通过与其他数据拥有者合作,通过对数据进行整合、编辑、清洗、脱敏,形成数据产品后出售。
  • 交易中介:在这种模式下,平台本身不存储和分析数据,而是作为交易渠道,通过API接口形式为各类用户提供出售、购买数据( 仅限数据使用权)服务,实现交易流程管理。
  1. 数据交易的另一个参与方 是数据的需求方, 包括各类数据分析服务 商和企业用户,过去数据需求方可以通过直接收集用户信息(如通过网络爬虫等)来满足自身的数据需求,但在据需求,但在日益严格的数据隐私保护法律法规面前,这种获取数据的方式已经变得不可行,第三方交易平台成了当前主要的数据来源。

《联邦学习实战》杨强 读书笔记十四——构建公平的大数据交易市场_第1张图片

数据确权

数据确权指的是数据交易后,数据的所有权和控制权归属问题。

大数据交易面临的产权归属主要面临四大瓶颈:

  1. 首先就是数据权利类型没有明确,无法确定其适用所有权法、产权法,还是知识产权法;
  2. 其次是数据权利主体究竟属于数据生产者(个人、企业、政府)还是数据持有者(企业、政法)存在争议;
  3. 三是数据的控制和使用权利界限不明,如何分离尚不明晰;
  4. 四是数据通过互联网非常容易复制,权属保护很困难。

基于联邦学习构建新一代大数据交易市场

卖家并不是直接将数据放在交易平台上进行交易,在各个参与方数据不出本地的前提下,联合各参与方,这些二次开发的数据形态以产品的形式放到数据交易市场进行交易。

联邦学习激励机制助力数据交易

要想数据交易市场在一个良性的环境下持续并长久的运行,需要一种激励机制, 通过激励数据所有者贡献有价值的数据,更好地调动各参与方的积极性。此外,数据交易市场的数据提供方和数据交易平台在数据存储和模型训练上都需要一定的资源成本开销,公平的激励策略能够帮助各参与方从联邦学习生态中受益。

1951年,由诺贝尔奖得主Shapley提出的Shapley值是公平地定量评估用户边

际贡献度的常用指标。Shapley值(SV)的概念起源于合作博弈,并被广泛应用于很多领域,从经济学、信息论,到机器学习。SV值之所以应用如此广泛,是因为它具有公平性、个体理性化和可加性等优越性质。在联邦学习中,一个参与节点的SV值能够评估该节点对聚合的最终模型的边际贡献量。然而,Shapley 值的求解往往需要指数级的计算复杂度O(n!),其中n是节点数量。

本节将激励机制引入联邦学习大数据交易市场,详细介绍一种基于区块链的联邦学习P2P支付系统,简称联邦币(FedCoin),以实现基于Shapley值的公平激励分配。

FedCoin支付系统设计

FedCoin系统包含两个参与者网络:联邦学习网络和P2P区块链网络。参与网络的节点用户可以分为四类:联邦学习模型(任务)需求方,联邦学习客户端,联邦学习服务器和区块链共识节点。

  1. 联邦学习模型(任务)需求方:是指需要训练-一 个联邦学习网络的用户节点,设其任务预算为V。
  2. 联邦学习客户端:是分布式数据持有者,通过完成协同训练任务获得报酬支付。每个联邦学习客户端基于本地数据训练本地模型,并将模型参数更新提交给联邦学习服务器。
  3. 联邦学习服务器:是联邦学习网络中的一个中心化服务器, 用于协调楔塑训练过程,并接收来自联邦学习模型需求方的任务支付v。联邦学习服务器扮演三个角色。首先,它将一个学习任务发布给联邦学习客户端节点,并为其标价为训练费TraiPrice其次,它通过安全聚合协议50聚合收集的模型参数更新,并获得计算费(ComPrice)。然后,向区块链网络分配sv激励分配处置费SapPrice, 用以支付共识节点的出块奖励。一个联邦学 习任务的总支付(TriPrice+ComPrice+SapPrice)应该不大于V,以便维持支付系统的自平衡,从而不依赖于外部系统供给本系统的有价激励。
  4. 区块链共识节点:通过共识协议维护一个分布式公共账本状态的一致性。

具体而言,在每一轮全局模型更新之后,联邦学习服务器都会发布一个任务来计算每个联邦学习客户端的贡献。区块链网络中的共识节点通过协同计算Shapley值来确定一个获胜者,并由该节点获得写块权并接受TaiPiei+SaPrie的支付。然后,获胜节点通过在区块链中创建交易,将ComPrice (根据各自的Sapley值)分配给联邦学习客户端节点。在目前的设计中,我们只奖励贡献值为正值的节点,不惩罚负贡献的节点。所有的交易都记录在新的区块中,并更新同步到区块链中

本读书笔记系列针对2021年5月出版的《联邦学习实战》(见下图),后续部分将逐步更新

《联邦学习实战》杨强 读书笔记十四——构建公平的大数据交易市场_第2张图片

你可能感兴趣的:(神经网络,机器学习,深度学习,边缘计算)