关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研

一、隐私要素概括

1、隐私计算

隐私计算过程中常用的保护隐私的方法有数据匿名化、数据脱敏、差分隐私、联邦学习和多方安全计算。

数据匿名化:数据匿名化就是删除与数据对应身份相关的信息,即去标识化。通常用于人口普查数据公布、金融数据和医学数据。例如在医学数据库中,发布一些用户的疾病特征以及年龄、性别等特征,而删掉用户的姓名、身份证号、电话号码等个人隐私信息,保留了数据的使用价值使数据能够满足一些基本或复杂的数据分析与挖掘,同时使得数据的属性无法与某一个人相对应从而保护了用户的隐私性。

多方安全计算:是指在计算过程中有多个参与方,各个参与方拥有各自的数据,而其中的每个参与方都不能信任其他任何第三方和其他任何参与方,在这种条件下,如何使用各方私密的数据计算出一个目标结果的问题。多方安全计算通常依赖于一些复杂的加密技术,比如同态加密、秘钥分享、随机预言机、姚氏混淆电路、零知识证明等。多方安全计算目前主要研究参与者之间如何进行协同计算以及在计算过程中隐私如何得到保证。到目前为止,通用的两方计算基本具备了被商业落地的条件。而多方计算在特定场景下的性能瓶颈也已经基本被解决;而通用多方计算协议在可扩展性层面却依然不够成熟,学术界一直在对这个方向进行探索。

联邦学习:被提出用来保护机器学习训练过程中数据的隐私性,主要用于深度学习训练分布式存储的数据,能够帮助多个不同机构在满足用户隐私性要求、数据安全和相关法规的要求下,进行数据使用和机器学习建模。联邦学习是一种比较典型的分布式机器学习范式,可以有效解决数据孤岛问题,也就是让参与方可以在相互之间数据不共享的基础上联合训练模型。谷歌首先在2016年提出联邦学习这一概念,他们首先将它用于手机设备中的数据,在数据分布式地存储在各个本地端手机中的情况下训练一个中央模型,联邦学习采用的方法是对多个本地模型进行聚合,这样能对分布式数据训练中央模型同时不泄露数据隐私。联邦学习分为三种:联邦迁移学习、垂直联邦学习和水平联邦学习。

差分隐私:是一个分析噪声注入对数据隐私性保护带来多大提升的数学框架,是2006年 Dwork提出的一种隐私保护机制。差分隐私已经被用于各个数据发布的技术领域,比如数据集对应的直方图、数据出现的频次和数据集的均值计算等等。差分隐私也被广泛应用于让机器学习模型保护数据隐私,

2、隐私信息

关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第1张图片
或者
关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第2张图片

3、现有的隐私保护方法

1、数据干扰法

数据干扰法通过修改数据加入噪声数据使数据集中数据无法辨认以保护真实的原始数据,同时修改后的数据仍可应用于统计分析。利用数据干扰法后,原始数据中将存在一定的干扰数据,所以即便某数据项被链接到某特指的个体也不会完全暴露数据的真实值,因此不会泄露私有信息。但是,这种方法必然会破坏数据的原始性,造成数据可用性低,导致发布的数据无实际价值。

2、数据变换法

数据变换法主要思想是降低原数据库中的私有信息的支持度或置信度至某个阈值,在实际操作中往往是通过删除或增加数据项来达到此目的。可明显的防范私有信息的泄露,但是该方法破坏了数据的真实性,不利于实际的统计分析。
关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第3张图片

3、数据阻塞法

数据阻塞法原理是通过向原始数据表添入占位符“?”,将支持度和置信度区间从确定值变为不确定值,以此来达到防范私有信息泄露的目的。

4、数据重构法

数据重构法原理是利用数据挖掘方法挖掘原数据集的频繁模式,依据此频繁模式构建出新的发布数据集,而原始数据集将不作为公开数据集。作为一种较新的受限关联规则隐匿方法,不同于数据变换法和数据阻塞法需要变换修改原数据集来隐匿私有信息。

二、联邦学习于隐私保护

联邦学习概括

联邦学习是一种由谷歌提出的非常有效的工具,其主要目的是借助多个移动设备生成的私有训练数据联合进行机器学习模型训练。
数据作为学习算法的“营养”却很难做到充分的共享。例如在工业应用场景中,很少有企业愿意共享其数据资源,这种情况主要受限于某些商业因素(例如:市场竞争和管理策略)。即使对于个体参与用户,他们也依然担忧将本地数据集外包于服务提供商所带来的隐私泄露风险可能会远远超出这种便捷的在线服务所带来的收益。

1、联邦学习的基本工作流程

(1)参与者从云服务器上下载已成初始化的全局模型,使用本地数据集对该模型进行训练,并生成最新的本地模型更新(即模型参数)。
(2)云服务器通过模型平均算法收集各个本地更新参数并更新全局模型。由于联邦学习具有的独特优势——可在保护数据隐私的前提下实现由多个参与者的本地数据训练出统一的机器学习模型,因此在隐私敏感的场景中(包括金融业、工业和许多其他数据感知场景)联邦学习展现出了极好的应用前景

2、联邦学习的问题

(1)由于联邦学习框架中的云服务器没有访问参与者本地数据及其训练过程的权限,使得恶意参与者可以上传不正确的模型更新以达到并破坏全局模型的目的。例如,内部攻击者可以通过已经修改后的训练数据训练得到的投毒模型更新,达到有效影响全局模型准确性的目的。
(2)由于将本地模型更新和全局模型参数相结合可得到训练数据中的隐含知识,使得用户的个人信息可能被泄露给不可信的服务器或者其他恶意用户。例如,即便是由自其他用户的训练数据产生的原型样本也有可能被恶意用户隐秘地窃取。
(3)在不可信的云服务器和恶意参与者的合谋攻击下,每个人确切的隐私信息都是有可能被泄露的。

虽然在深度学习领域,特别是在神经网络学习场景中,保证安全性和隐私的工作已探索多年,但针对如何构建具有安全和隐私性的联邦学习系统的研究仍处于初级阶段。

3、联邦学习受到的安全和隐私威胁

一方面,由服务提供商部署的服务器被视为被动攻击者,其安全模型是诚实但好奇的。这意味着这些服务器通常会严格地按照既定的学习协议提供服务,但他们的同事也试图从本地模型更新中泄露用户的一些敏感信息。

另一方面,参与者被视为主动攻击者,他们试图从由训练数据形成共享的全局模型参数中恢复出用户的敏感信息。

4、联邦学习隐私保护问题分类

根据隐私保护的目标不同,联邦学习隐私通常可以分为全局隐私和局部隐私2类.

全局隐私对服务器发送给客户端的全局模型参数进行隐私保护,可隐藏客户端对模型的贡献进而保护其数据隐私性;
局部隐私对客户端向服务器发送的局部参数进行隐私保护,可防止攻击者从局部模型参数更新中恶意推断出其本地隐私数据信息.常见的隐私保护机制有基于安全多方计算(MPC)的隐私保护和差分隐私保护.

4、构建几种可以保护数据的联邦学习环境策略

关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第4张图片

几篇论文

1、《面向隐私保护联邦学习的医学影像目标检测算法》

关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第5张图片
在服务器聚合客户端局部模型的参数更新时引入高斯噪声,实现对全局模型参数的保护,攻击者即使访问到扰动后的参数也无法直接获取各客户端的参与度和对模型的贡献,因此可实现对全部客户端私有数据的保护。

通过对全局模型参数进行高斯机制的差分隐私保护,实现了对所有客户端私有数据信息的保护

2、不同场景的联邦学习安全与隐私保护研究综述

  • 横向联邦学习:基于样本的分布式机器学习,适用于参与方有相同特征空间且不同样本空间的数据场景
  • 纵向联邦学习:基于特征的分布式机器学习,适用于参与方有不同特征空间且相同样本空间的数据场景
  • 迁移联邦学习:联邦学习结合迁移学习,适用于参与方有不同特征空间及不同样本空间的数据场景
    关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第6张图片

3、《联邦学习隐私保护研究进展》 2021

阐述了联邦学习的技术优势,同时分析了联邦学习系统的各种攻击方式及其分类,讨论了不同联邦学习加密算法的差异。总结了联邦学习隐私保护和安全机制领域的研究。

很全

4、《面向用户隐私保护的联邦安全树算法》

文章介绍了一种无损失的联邦学习安全树(FLSectree)算法。提高了 在用户行为预测场景下联邦学习算法的运行效率。

三、数据溯源

1、什么是数据溯源

人们通常所使用的数据并非原生数据,而是经过数据要素流通市场并依照相应规则﹑标准进行加工,计算﹑聚合、交易后的派生数据。从本质上讲,原生数据“杂乱无章”,不宜直接用于特定的重要场景;经过“深加工”形成的派生数据更适合用于特定的重要场景,但须保证派生数据的真实性可靠性和安全性。原生数据“深加工”后已变得“面目全非”,为重现原生数据的真实状态,就必须采用特定的方法或路径去回溯,即为数据溯源

1、《基于数据要素流通视角的数据溯源研究进展》

关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第7张图片

1 数据溯源模型

当前研究文献和工作实践中,“出镜率”较高“知名度”较响﹑影响力较强的当属以下三种模型

1)数据溯源描述模型

数据溯源描述模型从W2 ( Why ,Where)模型,扩展到W3 ( Why ,Where , How)模型,再到如今较为成熟的W7( Who , Why ,Where ,How , What 、 When 、 Which)模型。与W2模型、W3模型相比,W7模型的进步之处在于,它不仅对数据溯源的范围进行了拓展,而且明确了数据溯源的核心要素What,即在数据的全生命周期中,数据发生了什么.应该是什么,形成了基于工作流的数据溯源模型。

2)数据溯源应用模型

将 Data 、 Process .Agent作为主要组件的 Provenir数据溯源应用模型

其中, Data代表用于科学实验的材料,产品及相关参数,而Process . Agent与开放溯源模型中所指涵义具有相似之处。但与之具有明显不同,在Provenir数据溯源模型中, Process被认为具有随外在因素变化而发生变化的特性,属于Occurrent;Data . Agent则不具有随外在因素变化而发生变化的特性,属于Continuant。

3)数据溯源安全模型

同数据本身一样,数据溯源对安全也有极高的要求,因为面对不可信的复杂环境,经历不同的处理流程,数据溯源信息面临着被编辑﹑被转换﹑被篡改等层层失真的安全风险。

数据溯源安全与区块链技术紧密相连、密切相关。

一种策略是,将区块链技术与射频识别(Radio Frequency ldentification, RFID)技术有机结合,构建起多个主体参与、多个部门协同、信息公开透明、数据真实共享的溯源链条,以及涵盖溯源物品生产、销售﹑流通、加工.消费等溯源路径,做到RFID数据溯源安全管理

另外一种策略是,将区块链技术与智能合约协议有机结合构建合约模型,探讨溯源模型在不同条件下实现的可能性﹑扩展性,在可信任平台中,只有诚实参与者才能够安全收集和验证溯源信息。还有的一种可能策略是,将区块链技术与云技术有机结合,不仅可以实时溯源云端数据信息,而且隐私保护能力和安全性能系数更高。

2 数据溯源方法

在要素市场上,数据一旦被交易出去,其管理主体将由一方逐渐扩散至多方,其主要内容也可能会由“真”变“假”。尤其当数据交易出现争议,甚至法律风险时,如何采用数据溯源方法识别数据在某个时点的真实性、权属性?数据溯源方法的有效构建与合理选择就显得比较重要。当前文献对数据溯源方法的研究主要集中在以下方面

1)面向关系数据库的溯源方法

溯源信息以不同粒度的形式存储在关系数据库中,在简单的应用场景下,通过成熟的溯源系统可以较好地进行数据溯源

2)面向科学工作流的溯源方法

科学项目最优解的计算往往呈现超高强度计算,超强复杂依赖特点,科学工作流正是为解决这种大数据高密集型科学实验而开发设计的,使用科学工作流有助于对科学研究过程中产生的相关数据进行计算、分析。顾名思义,面向科学工作流的溯源计算方法即是对不同阶段的科学工作过程及产品信息进行溯源

在天文研究领域,以SOA ( Service-Oriented Architecture)数据溯源收集框架为基础,构建基于XML (eXtensibleMarkup Language)的数据溯源模型,对数据溯源的收集、存储、查询等功能进行测试

另有学者设计了面向科学应用的分层溯源采集和查询框架,主要包括溯源数据收集层、溯源数据存储层﹑溯源数据分析层。该模型实现了收集存储和分析存储相分离,能够灵活支持多种溯源模型,可扩展性比较高。

3)面向大数据平台的溯源方法

利用云计算

4)面向区块链的溯源方法

只有不断优化区块链技术框架中的共识机制,才能使得基于云计算与区块链双重技术的加持下的溯源效率更高;只有全方位使用区块链技术背景下应用程序对溯源信息的威胁内容,提出相应的安全溯源模型才会更具有可操作性。经过相应的程序测试和评估表明,安全溯源模型能够对区块链应用下的溯源数据起到很好的保护作用。区块链应用下的溯源计算模型,对工作量证明,权益证明的共识机制优化内容进行研究。权益持有人越维护网络利益,就会得到越多的激励,则越有机会做更多的决定。

共识机制的不断优化,能够解决分布式场景下平衡系统的性能效率和资源消耗的均衡问题,智能合约同样需要解决一致性问题。不同的是,智能合约是通过执行任务合约的方式扩展区块链对数据的处理能力,这样在区块链中保存处理数据的同时也对智能合约进行保存,从而实现各个节点下智能合约的一致性。基于区块链中的智能合约具有不可变更性特点,使得用户信赖区域链的同时,也增加了区块链在不同场景中的应用可能。对形式化本体概念.性质以及内容进行分析,并以产品供应链溯源为实证对象,对多伦多虚拟企业溯源本体方法与智能合约的转换过程进行研究,验证了该智能合约可以对数据进行溯源及通过区块链进行溯源行为约束。

对数据的可靠性和高质量要求加快了区块链技术的发展,但现阶段对基于区块链技术开展的数据溯源还处于探索阶段,较多集中在概念层面,少量集中在特定领域和应用行业.区块链涉及专业知识的多重性、技术领域的复杂性,展现出对使用区块链技术如何合理存储原始数据及标注信息如何描述溯源记录并确保可信的研究内容较少.但可以明确的是,借助面向区块链技术的数据溯源等方法,将会为数据要素在流通时提供可靠的技术支撑,有利于激活沉淀在个人手中、企业内部、政府平台的数据资源,推动数据要素由资源向资产转化.

蓝皮书 《中国监管科技发展报告(2021)》

IV数据治理篇B.20 基于区块链和联邦学习的数据要素交易监管沙箱

摘要:为了满足安全,可追溯,可监管数据共享的需求,最大化数据的价值,本报告提出了基于区块链和联邦学习的数据要素交易监管沙盒.此平台通过结合联邦学习和区块链技术,在保护数据隐私安全的情况下实现数据的价值,将区块链的智能合约,存证,隐私保护,通证流转等特点应用于数据资产的上架,交易和交割等过程中,为数据溯源,审计,责任明确和权益分明等提供技术支持,并阐述基于新型数据交易平台实现数据共享以促进政府和企业发展的未来展望.

参考文献
关于数据要素、联邦学习在保护隐私数据方面、数据要素溯源的调研_第8张图片

你可能感兴趣的:(数据要素,机器学习,人工智能,深度学习)