How to understand privacy computing

How to understand privacy computing

  • 概述
    • 什么是隐私计算
    • 数据流通的困境
    • 隐私计算流派
    • 隐私计算应用场景
      • 金融行业
      • 医疗健康行业
      • 政务行业
  • 相关技术
    • 同态加密
    • 可信执行环境

概述

什么是隐私计算

  2016年,中国科学院信息工程研究所研究员李凤华等对隐私计算在概念上进行了界定:隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。隐私计算涵盖信息所有者、搜集者、发布者和使用者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期中的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私描述、度量、保护、效果评估、延伸控制、隐私泄露收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。

  中国信通院根据数据的生命周期,将隐私计算技术分为数据存储、数据传输、数据计算过程、数据计算结果4个方面,每个方面都涉及不同的技术,如图所示。数据存储和数据传输技术相对成熟,大家也可能应用过相关技术,因此我们将主要介绍数据计算过程和数据计算结果相关的隐私计算技术。

How to understand privacy computing_第1张图片
隐私数据的全生命周期
How to understand privacy computing_第2张图片
根据生命周期划分的隐私计算技术

  根据数据生命周期,我们可以将隐私计算的参与方分为输入方、计算方和结果使用方三个角色,如图所示。在一般的隐私计算应用中,至少有两个参与方,部分参与方可以同时扮演两个或两个以上的角色。计算方进行隐私计算时需要注意“输入隐私”和“输出隐私”。输入隐私是指参与方不能在非授权状态下获取或者解析出原始输入数据以及中间计算结果,输出隐私是指参与方不能从输出结果反推出敏感信息。

How to understand privacy computing_第3张图片
隐私计算参与方的三种角色

  联合国全球大数据工作组将隐私保护计算技术定义为在处理和分析数据的过程中能保持数据的加密状态、确保数据不会被泄露、无法被计算方以及其他非授权方获取的技术。与之基本同义的一个概念是“隐私增强计算技术”,通常可换用。

数据流通的困境

How to understand privacy computing_第4张图片
数据流通释放数据价值的过程
How to understand privacy computing_第5张图片
国内大数据交易市场建设历程

  从业务模式看,各交易所最初的业务设想包含了交易撮合、交付结算、确权估值、数据资产管理和金融服务等一系列服务,但最终只有交易撮合业务得到初步落地。甚至,有的交易所已不再从事数据交易服务,而完全转变为大数据分析或标注的技术提供商。从经营业绩看,各交易所的数据成交量整体较为惨淡。从运营方式看,仍在运营的交易所重要收入均来源于承接的政府项目,市场化水平和竞争能力都较低。

  究其原因,主要在于数据交易所的定位和模式未明、数据交易配套的法律痼疾未祛。一方面,各交易所建设时的定位相似、功能重复,在缺少核心竞争优势的同时,服务模式、定价标准等交易规则体系参差混乱,难以培养数据供需双方对交易所的平台依赖,只能沦为小规模数据交易的撮合者。另一方面,数据权属的界定仍处于灰色地带,在相关立法尚未健全的当下,行业内的实践中未能形成具有共识性或参考性的权属分割规则,产权争议、无法监管的风险令供需双方望而却步。除此之外,频发的数据安全和个人隐私泄露事件加剧了社会对数据交易的不信任感,出于对国家安全、个人信息和商业秘密的保护,主体参与数据交易的主动性、积极性因此降低,成为数据交易所发展的又一大障碍。

  在规模化的数据交易市场尚未形成的当下,机构间旺盛的数据流通需求,大多通过分散、无序、一对一的交易或共享来满足,市场规则难以统一,缺乏规范可信的产业环境,为数据在机构间的市场化流通带来不小挑战。

  在众多困境之中,各类数据流通活动如何确保流通过程的安全合法是产业发展中遇到的一大难点,也是各类数据流通参与主体最为关心的话题。现有法律法规的约束使得各类主体在进行数据流通中存在着诸多不确定因素和法律风险。如不当收集、使用或滥用个人信息,有可能被利用以实施各种犯罪,流通过程中的数据监听、截获隐患,超出初始收集目的和业务范畴的再使用,包括提供给合同之外的第三方的使用(即流通)等,都会危害到公民的人身和财产利益。同时,流通中的数据资源也需考虑可流通范围、流通对象合法性、流通过程的安全保障、使用授权等一系列安全与合规问题。

  安全合规的监管红线未明,再加上数据流通在数据质量、数据定价、数据权属等方面的市场机制的缺失,使得不同的企业或者机构之间没有动力或者根本无法实现数据的流通。这种“数据孤岛”现象导致现代商业数据无法合规流通,制约了数据经济的可持续发展。例如,医疗机构存储了大量的病患记录,但由于政府规定,病患记录不允许售卖给第三方,而这些数据对于药厂来说拥有极大的价值;另外,跨国企业在不同的国家都拥有执行办公室,但即使是同一家企业,由于不同国家的数据监管政策不同,企业内部的数据仍无法实现跨境传输。因此,虽然需求强烈,但是流通仍然困难重重。

  推动数据流通的技术主要需要解决个人信息保护、权益分配、数据安全保障、追溯审计等诸多问题。而其中较为核心的就是数据安全与个人信息保护。可以说,数据安全和隐私保护是数据流通的前提,特别是个人信息保护。《中华人民共和国网络安全法》规定:“未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”。因此,如何同时保证信息完整不缺失和保护被收集者个人信息成为数据流通中的迫切需求。从技术功能上看,需要满足以下几个方面的需求。

  (1)对数据标识加密。利用加密算法将可识别个人身份的标识信息转换成不能识别身份的密文信息,且需要满足相同数据标识在不同数据持有方中被转换的结果不同,用于确保个人信息在流通中得到保护。

  (2)加密后的数据标识可进行关联,需要实现不同参与方系统中的被加密标识可通过第三方转译进行再次关联,用于保证流通关联性。

  (3)个人信息被流通前的有效授权,需要确保只在被收集者授权情况下才可启动数据流通,并确保个人数据只在授权范围内合法使用。显然,没有一项技术可以同时解决数据流通的所有障碍。许多技术都是在某些环节以某种方式解决了数据流通过程中的某个问题。目前主要的技术手段包括以下几类。

显然,没有一项技术可以同时解决数据流通的所有障碍。许多技术都是在某些环节以某种方式解决了数据流通过程中的某个问题。目前主要的技术手段包括以下几类。

  (1)基于数据脱敏的技术

  通过对数据进行脱敏后,发布低精度的敏感数据或者彻底不发布敏感数据实现隐私保护。当前对该技术的研究主要集中于数据匿名化方面,即有选择地发布敏感数据并将数据泄露的风险控制在较低的水平。然而,无论如何脱敏,必然使数据在某些维度方面产生了缺失,从而严重降低了数据的使用价值。

  (2)基于数据失真的技术

  有些时候企业对于数据的利用是统计意义上的,不一定需要每个个体的数据都保持精确。基于数据失真的技术就是在保证某些数据属性不被改变的情况下使敏感数据失真从而达到数据保护的目的。数据失真技术通过对原始数据进行随机化、交换、凝聚等扰动措施,使处理后的数据失去重构性,但能保证某些有用性质不变,以便进行数据挖掘等操作,从而实现信息保护。

  (3)基于数据加密的技术

  倘若有一种方法,能将数据进行加密,但加密后的数据仍然可以进行计算分析,那就在一定程度上避免了原始数据直接传输的风险。也就是说,基于数据加密的技术通过对数据进行加密,保证加密后仍然可用这一宗旨来实现数据保护。实现这一手段的技术方法就包括了多方安全计算、同态加密等隐私计算技术。这也就是我们讨论的主要内容——隐私计算。

How to understand privacy computing_第6张图片
兼顾隐私保护和数据利用的技术方式对比

  除了上面这些技术,还有很多技术也能在数据流通的各环节提供技术保障。比如区块链技术,可以不可篡改地进行授权信息的存证,对确保数据交易各环节的授权信息存储和验证可以提供重要的技术保障。正如前面提到的,没有哪项技术可以同时解决所有问题,技术之类的融合应用也成了缓解数据流通障碍的热点趋势之一,比如隐私计算与区块链的结合。

隐私计算流派

  隐私计算领域还呈现出更多新的技术特点和解决方案。目前,从技术层面来说,隐私计算主要有两类主流解决方案:一类是采用密码学和分布式系统;另一类是采用基于硬件的可信执行环境(Trusted Execution Environment,TEE)。

  目前,密码学方案以MPC(多方安全计算,Secure Multiparty Computation,SMC)为代表,通过秘密共享、不经意传输、混淆电路、同态加密等专业技术来实现。近几年,其性能逐渐得到提升,在特定场景下已具有实际应用价值。

  基于硬件的可信执行环境方案是构建一个硬件安全区域,隐私数据仅在该安全区域内解密出来进行计算(安全区域之外,数据都以加密的形式存在)。其核心是将数据信任机制交给像英特尔、AMD等硬件方,且因其通用性较高且计算性能较好,受到了较多云服务商的推崇。这种通过基于硬件的可信执行环境对使用中的数据进行保护的计算也被称为机密计算(Confidential Computing)。

  另外,在人工智能大数据应用的大背景下,近年来比较火热的联邦学习也是隐私计算领域主要推广和应用的方法。

《腾讯隐私计算白皮书2021》将当前隐私计算的体系架构总结为图1-4。一般而言,越是上层,其面临的情况可能越复杂,往往会综合运用下层中的多项技术进行安全防护。虽然根据多方安全计算的定义,联邦学习也应该属于广义的“多方安全计算”范畴,但可能是由于当前机器学习比较火热,业界普遍将联邦学习单独列出。

How to understand privacy computing_第7张图片
隐私计算体系架构

隐私计算应用场景

金融行业

How to understand privacy computing_第8张图片
基于多方安全计算技术的征信系统联盟

医疗健康行业

How to understand privacy computing_第9张图片
基于联邦学习的医疗场景

政务行业

相关技术

同态加密

  同态加密算法是指满足同态运算性质的加密算法。而同态运算性质是指数据经过同态加密之后进行特定的计算,对得到的密文计算结果再进行对应的同态解密,所得结果等同于对明文数据直接进行相同的计算所得的结果。同态加密实现了数据的“可算不可见”。

How to understand privacy computing_第10张图片
同态加密的实现效果示意图
How to understand privacy computing_第11张图片
各类同态加密算法

可信执行环境

How to understand privacy computing_第12张图片
GP提出的TEE架构
How to understand privacy computing_第13张图片
SGX应用程序的两个部分
How to understand privacy computing_第14张图片
非可信应用程序与Enclave之间通过边缘例程交互

使用sizefunc的示例

enclave{
  trusted {
    // 复制get_packet_size 个字节,开发者必须
    // 定义get_packet_size函数:size_t get_packet_size(const void* ptr);
    void demo_sizefunc([in, sizefunc=get_packet_size] void* ptr);
    // 复制(get_packet_size * cnt) 个字节
    void demo_sizefunc2(
      [in, sizefunc=get_packet_size, count=cnt] void*
      ptr, unsigned cnt);
  };
  untrusted {
    /* define OCALLs here. */
  };
};
How to understand privacy computing_第15张图片
Visual Studio自动解析EDL文件并生成相关代码
How to understand privacy computing_第16张图片
SGX结构型服务
How to understand privacy computing_第17张图片
EPID远程鉴证架构
How to understand privacy computing_第18张图片
ECDSA远程鉴证架构
How to understand privacy computing_第19张图片
Teaclave系统架构

参考文献

  • 深入浅出隐私计算:技术解析与应用实践 / 李伟荣著 / 机械工业出版社 2022-01 / ISBN:9787111701057

你可能感兴趣的:(Reading,隐私计算,隐私,计算,保护)