读论文:大数据计算环境下的隐私保护技术研究进展

标题: 大数据计算环境下的隐私保护技术研究进展
作者: 钱文君, 沈晴霓,吴鹏飞 , 董春涛 , 吴中海

文章目录

  • ==Abstract==
  • ==Introduction==
  • ==综述==
    • 一、大数据计算环境现状及隐私问题
      • 1.1 大数据计算环境现状
      • 1.2 隐私问题、挑战与主要研究方向
        • 1.2.1 敌手模型
        • 1.2.2 问题与挑战
        • 1.2.3 主要研究方向
    • 二、基于数据分离的隐私保护
      • 2.1 基于敏感数据标记的分布式计算
      • 2.2 基于数据分离的联邦学习
      • 2.3 小结
    • 三、基于数据干扰的隐私保护
      • 3.1 数据匿名技术
      • 3.2 差分隐私技术
        • 3.2.1 基于 LDP 的隐私保护
        • 3.2.2 基于 CDP 的隐私保护
      • 3.3 小结
    • 四、基于安全多方计算的隐私保护
      • 4.1 基于混淆电路的安全多方计算
      • 4.2 基于秘密共享的安全多方计算
      • 4.3 基于同态加密的安全多方计算
      • 4.4 小结
    • 五、基于硬件增强的隐私保护
      • 5.1 基于硬件增强的大数据计算框架
      • 5.2 基于硬件增强的计算性能优化
      • 5.3 小结
    • 六、基于访问模式隐藏的隐私保护
      • 6.1 基于ORAM的不经意计算
      • 6.2 基于不经意混洗的不经意计算
      • 6.3 小结
    • 两种实现不经意计算的技术对比分析如下 (1)**ORAM**通过将每一次读或者写访问都随机地转换为一次读取和一次写回操作,使得攻击者无法区别数据的具体访问方式,从而隐藏了处理器访问内存的操作序列和地址序列访问模式。然而,由此带来的额外操作在实际应用中往往带来较高的计算开销,严重制约了其实际应用; (2)**不经意混洗**通过对数据的重排列使得攻击者无法关联输入数据和输出数据的分布,从而阻止攻击者判断计算过程中的访问模式。在基于 IntelSGX 硬件支持的条件下,采用不经意排序或者级联混合网络手段实现不经意混洗方法要比 ORAM 高效的多; ![](https://img-blog.csdnimg.cn/023cd8d0a4324424904c56408d7e82ac.png)
  • ==总结==
  • ==未来展望==


Abstract

批处理、流式计算和机器学习等分布式的大数据计算环境上的广泛部署与应用,给云用户带来许多前所未有的便利的同时,也使得信息泄露时间越来越频繁。如何在这种云上部署的大数据计算环境下保护数据隐私成为一个研究热点,而本文也正是针对这一话题来 对国内外的最新研究成果 来进行全面综述:本文从计算过程涉及的数据输入计算输出等三个环节出发,依据计算数据为明文密文可信硬件保护条件下可能存在的隐私泄露风险,总结了对应的 5 类主要研究方向 :基于数据分离的隐私保护、基于数据干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护和基于访问模式隐藏的隐私保护等;从隐私性可用性性能等方面对比分析了现有研究工作的优缺点;最后对于大数据环境下隐私保护技术的未来发展方向进行了一定的展望;

Key words: 大数据隐私保护;数据分离;数据干扰;安全多方计算;硬件增强;访问模式隐藏


Introduction

随着云计算与大数据技术的发展,现在许多云服务提供商都支持云端部署分布式存储和计算框架,主要包括:批量计算框架(针对⼤规模数据的批量处理)、流式计算框(针对流数据的实时计算处理)以及机器学习框架(针对构建机器学习模型)等,以上这些技术都为用户提供持续可靠、可扩展且高吞吐量的大数据存储和计算服务
缺点:由于 数据所有权和使用权的分离 ,在计算过程涉及的 数据输入、计算和输出 等阶段都有可能发生隐私数据泄露的风险——>如何在大数据计算环境下保护敏感数据的隐私性(privacy),同时保证数据的可用性(utility)计算的高效性(efficiency)成为大数据隐私保护领域的研究热点之一;
隐私泄露问题:数据输入阶段的原始数据(raw data)隐私泄露,计算过程中的
隐私数据被攻击者窃取
,以及不可信的数据消费者在结果输出阶段试图推断出数据隐私;
应对手段:
(1)在数据输入阶段,目前有效的保护隐私手段是采取数据分离/数据干扰等方法:数据分离方法主要考虑到隐私数据的位置,一般将数据所有者的 非敏感数据上传到公有云,敏感数据被分离到本地的私有云 ——>但是在实践中这种方法往往会增加两种云服务间的开销,并且其通信数据有被截胡的风险;数据干扰方法则采用了本地化差分隐私(Local Differential Privacy, LDP)技术,它通过对敏感信息进行本地化随机响应,达到干扰真实数据的效果——>在云端对失真数据(经过一系列操作后与真实数据有偏差的数据)进行分布式计算会严重地影响结果的准确性,而这也使如何在这一方面进行改进成为了热门问题;
(2)在数据计算阶段,通常会采用加密传输的方式来保证数据的机密性和计算隐私性,此外还要结合安全多方计算(SMC)硬件增强或者访问模式隐藏等主流方法实现隐私计算。其中,设计SMC需要依赖需要依赖混淆电路(Garbled Circuits, GC)秘密共享或者同态加密(Homomorphic Encryption, HE)等密码学技术, 在互不信任的多个参与方之间协作计算时,SMC 保证任何一方都无法窃取其他各方的数据隐私特别地同态加密使得在密文上执行计算成为可能,即密文计算——>是在实际应用中,对于复杂的计算任务其执行效率较低且计算开销较高——>学术界一边对更加实用且高效的安全多方计算协议开展研究,另一方面依赖可信硬件保护提出“加密传输-明文计算”的优化策略,其中最有代表性的当属Intel SGX,这是一种硬件增强方法,它为明文计算提供了安全的可信执行环境(TEE),这项技术既能保护数据的机密性和隐私性,也保证计算代码的安全执行,但是攻击者还是可以通过观察内存层的访问模式网络层的访问模式,进一步地推测出数据隐私——>主流访问模式隐藏技术:不经意随机访问机(Oblivious RAM, ORAM)和不经意混洗(oblivious shuffle),他俩能够实现不经意计算,防止攻击者观察计算过程中的访问模式
(3)在计算结果输出阶段,主要采用数据干扰方法来解决输出隐私问题,比如数据匿名中心化差分隐私(Centralized Differential Privacy, CDP)技术——>但是干扰数据会影响数据的可用性,因此需要考虑隐私性和可用性权衡问题

本文重点梳理了与大数据计算环境相关的隐私保护研究工作,如下图所示:
读论文:大数据计算环境下的隐私保护技术研究进展_第1张图片

展示了不同隐私保护技术之间的联系与分类依据。文章于从计算过程涉及的数据输入、计算和输出等三个环节出发,依据计算数据为明文、密文或可信硬件保护等条件下可能存在的隐私泄露风险和技术挑战,将分离执行联邦学习差分隐私安全多方计算Intel SGX 等主流的隐私保护技术划分为 5 大类,包括基于数据分离的隐私保护、基于数据干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护和基于访问模式隐藏的隐私保护等。每一类隐私保护技术侧重于解决不同阶段所面临的隐私问题,并依赖不同的解决思路

  • 差分隐私通过 拉普拉斯、指数和随机响应 等扰动机制干扰数据,保证数据输入阶段或输出阶段隐私
  • 安全多方计算依赖 混淆电路、秘密共享和同态加密等密码学手段 ,设计协议保证计算过程中数据的机密性
  • 联邦学习通过 在本地联合训练模型 保护训练数据的隐私,但是已有研究表明联邦学习存在着参数泄露的风险,需要进一步地依赖差分隐私或者安全多方计算等技术保护训练阶段的模型隐私;
  • Intel SGX通过提供可信的执行环境保证数据以明文形式计算的安全性;

综述

一、大数据计算环境现状及隐私问题

1.1 大数据计算环境现状

经典的基于云的大数据计算环境的参与角色可以分为:数据所有者(data owner)、数据持有者(data holder)、云服务提供商、数据消费者(data consumer)。一般都吧前两者看作同一方,称为数据提供方。但是在实际场景中,他们仨往往都不是同一方,他们的关系是:

  • (1)数据所有者:生成和创建原始数据的实体,对原始数据具有所有权,负责控制其数据的生 成、收集和共享;
  • (2)数据持有者:经过认证和授权持有数据的实体,一般情况下,能够生成或创建文件的数据持有者也被视为数据所有者,可以认为是同一个实体
  • (3)云服务提供商:它以按需付费的形式为数据持有者或者数据消费者提供各种各样的资源和服务
  • (4)数据消费者:也称为云用户,经过数据所有者授权对数据具有使用权
    而云服务提供商所提供的框架主要有如下几种:
  • (1)批量计算框架:批量计算的特点是数据存储后再集中离线计算,即计算跟着数据走,适合延时较高的静态数据处理场景;
  • (2)流式计算框架:流式计算的特点是数据流到来后直接在内存中实时计算,不再对流式数据进行永久化存储,即数据跟着计算走,适合低延时或实时的流数据处理场景;
  • (3)机器学习框架:它支持基于大规模数据集的模型训练和预测服务,适合集中式学习或者联邦学习场景;

1.2 隐私问题、挑战与主要研究方向

1.2.1 敌手模型

根据敌手角色的不同,可以分为不可信的云服务提供商和不可信的数据消费者,他们的攻击能力又可以分为恶意敌手(主动攻击)和半诚实敌手(被动攻击);


1.2.2 问题与挑战

大数据计算环境下的隐私泄露问题:

  • 数据输入阶段的原始数据隐私泄露,简称输入隐私问题
  • 计算过程中的机密数据被攻击者窃取,简称计算隐私问题
  • 不可信的数据消费者在结果输出阶段试图推断出隐私数据,简称输出隐私问题

挑战问题以及对应解决方法:

  • 数据输入阶段的隐私泄露:敏感数据保留在本地私有云进行存 储及计算,而非敏感数据可以选择是否上传到公有云;
  • 云服务提供商不可信:原始数据在本地去隐私即脱敏之后再到云平台进行计算;云服务提供商可信但是数据消费者不可信,计算结果需要在脱敏之后再发布给数据消费者;
  • 计算过程中不可信的云服务提供商会窃取隐私数据:数据加密传输并被密文计算;
  • 密文计算给大数据处理带来了计算开销和通信开销的性能瓶颈:更倾向于数据被加密传输但在 CSP 受信任的硬件环境高效地执行明文计算;
  • 即使数据被加密传输且仅在可信环境下执行明文计算,攻击者也可以观察内存层的访问模式和网络层的访问模式:相应的隐私保护技术主要是基于ORAM 或者不经意混洗等技术隐藏访问模式

1.2.3 主要研究方向

文章调研了近年来发表在信息安全顶级会议/期刊上关于大数据计算环境下隐私保护技术的国内外研究进展,总结了 5 个研究方向:

  • (1)基于数据分离的隐私保护:考虑到敏感数据或者全部原始数据在本地或者私有云环境被处理的隐私保护需求,该类研究方向主要借助数据分离技术抵抗不可信的CSP,解决了输入隐私问题;
  • (2)基于数据干扰的隐私保护:考虑到数据需要去隐私后发布到不可信第三方的隐私保护需求,为了抵抗不可信的 CSP 或者不可信的数据消费者,该类研究方向主要是在数据输入或者计算结果发布之前,利用数据匿名或者差分隐私技术泛化、压缩或者随机扰动真实数据,解决输入隐私和输出隐私问题;
  • (3)基于安全多方计算的隐私保护:考虑到云服务提供商不可信,需要数据加密上传后并密文计算的隐私保护要求,该类研究方向主要借助安全多方计算协议允许互不信任的参与方安全地执行联合计算,同时也不泄露计算数据隐私;
  • (4)基于硬件增强的隐私保护:由于密文计算在实际应用中面临性能瓶颈,考虑数据被加密传输但在 TEE 环境下执行明文计算的隐私保护需求;
  • (5)基于访问模式隐藏的隐私保护:由于 IntelSGX 技术在实际应用中面临侧信道攻击,例如切换内存页会暴露内存层访问模式,计算节点间的通信流量会暴露网络层访问模式;
    读论文:大数据计算环境下的隐私保护技术研究进展_第2张图片

二、基于数据分离的隐私保护

  • 定义: 根据数据的敏感性分离存储和计算数据,该方法保证了敏感数据在本地或者私有云环境被安全高效的处理,而不会被迁移到不可信的公有云环境

2.1 基于敏感数据标记的分布式计算

  • 主要思想: 首先对原始数据中包含的敏感数据进行标记,将数据划分为敏感数据集和非敏感数据集;然后将在不同数据集上的相关计算任务也进行划分,并将非敏感数据及其相关的计算任务外包到公有云存储并计算,而小规模的敏感数据及其相关的计算任务保留在本地或者安全的私有云执行;
  • 主要的挑战点:
    (1)数据的敏感性标记:一方面需要依据数据所有者的隐私保护需求对原始数据集打标签,另一方面,对于大规模数据集而言,标记效率也是值得思考的问题;
    (2)混合云中的分离执行:由于缺失支持混合云环境的计算框架,迫使编程人员需要手动分割并提交每个计算任务到公有云或私有云,这严重地妨碍了数据代码的重用;
  • 解决方法
    (1)针对敏感性标记方法:使用两种不同标签将输入数据划分为敏感和非敏感两个部分,但是要在作业执行前手动标记,影响效率;于是就有其他学者提出了一种能够根据安全等级自动划分和执行任务的框架;但是数据在计算过程中的敏感度也会发生变化,就有科学家提出了相应的数据标记方法;
    (2)混合云中的分离执行模型:使用了一种可以提供四种分离执行策略的安全计算框架,但是其效率低下并且开销较大;于是就有人提出了采用自动化分析和代码转换技术的方法,但是这又限制了其扩展性,不适用于处理复杂问题;为此,又有科研人员提出采用更细粒度的元组标记策略;
    读论文:大数据计算环境下的隐私保护技术研究进展_第3张图片

Map 混合:敏感数据的map 阶段在私有云中执行,非敏感数据的 map 阶段在公有云中执行;
水平分割:数据存储在私有云,map 阶段在私有云中执行,然后数据混洗后加密传输到公有云,执行 reduce 阶段,该执行模型适用于长期归档数据的应用场景;
垂直分割:敏感数据和非敏感数据分别独立地在私有云和公有云中执行map/reduce 阶段,不允许跨云传输数据;
混合:分别独立地在私有云和公有云中对敏感数据和非敏感数据执行 map阶段,混洗后跨云传输数据,然后在私有云和公有云中分别执行 reduce 阶段。

读论文:大数据计算环境下的隐私保护技术研究进展_第4张图片

2.2 基于数据分离的联邦学习

允许在远程设备或者孤立的数据中心来训练机器学习模型

  • 通用联邦学习架构:多个本地设备(数据持有者)与中央参数服务器之间经过本地训练、上传本地更 新、服务器端安全聚合以及下载全局模型等步骤保证联合训练模型的一致性;
  • 挑战问题及研究进展
    (1)通信开销:由于本地设备的带宽、电力和功率等资源有限,使得联邦学习中的通信可能比本地计算慢许多数量级。学术界主要从减少通信轮数以及每个轮传输的消息大小两个方面提高通信效率;
    (2)系统异构:由于联邦学习中每个设备的硬件及网络等配置不同,因此系统特性存在很大差异。学术界主要采用异步通信、主动采样设备和容错等方式来解决系统异构性挑战;
    (3)数据异构:由于本地设备的不同,它们经常生成和收集 Non-IID 数据,导致数据中包含设备之间的关系及相关分布。学术界主要从异构数据建模和相关训练过程的收敛分析两个方面展开研究;

2.3 小结

  • 共同点是通过敏感数据集在本地或者私有云环境存储和计算,保证了原始数据集中敏感数据的输入隐私。但是,基于数据分离的隐私保护面临着通信开销较高的局限,以及联邦学习中本地设备与中央参数服务器之间的通信开销,未来还需要进一步地降低通信成本;
  • 不同之处在于基于敏感数据标记的分布式计算将非敏感的数据分配到公有云环境,充分利用公有云的计算能力提高大数据处理效率,更适合处理敏感数据不密集的原始数据集;而基于数据分离的联邦学习要求所有数据在本地存储并训练,更适合处理敏感数据密集的原始数据集

三、基于数据干扰的隐私保护

相比其他的隐私保护方法,该方法会造成数据失真,通过牺牲数据的精度来增强隐私保护水平,因此隐私性和可用性的权衡问题一直是该研究方向的热点问题

3.1 数据匿名技术

  • 主要思想:主要采用泛化、抑制、解剖、置换和扰动等五种类型的匿名化操作,限制准标识符与敏感信息之间的链接关系;
  • 主要挑战
    (1)多维数据的匿名发布:在多维的大规模数据集上直接执行上述匿名化操作会严重地降低数据可用性,带来大量的信息损失;
    (2)高效的大数据匿名并行处理:在大数据计算环境下,将上述匿名化操作直接应用到大规模数据匿名处理时,会带来扩展性和效率的挑战;
  • 解决方法
    (1)多维静态数据的匿名化研究工作主要基于k-匿 名算法展开,研究如何对原始数据集进行有效的匿名化,尽可能地实现匿名效果最好、数据可用性最高且时间空间开销最小的匿名算法;而多维数据流的匿名化主要基于扰动、树状结构、伪造值和聚类等方面展开研究;
    (2)一种是借助主流的大数据计算框架实现分布式的匿名并行处理;另一种是将已有的匿名算法并行化,以适应大数据计算环境下的分布式处理特性。大多数研究工作基于第一种思路展开,它们充分利用了计算框架本身的扩展性和高效优势,在大数据计算环境下更加实用;
    读论文:大数据计算环境下的隐私保护技术研究进展_第5张图片

3.2 差分隐私技术

主要通过添加噪音干扰真实数据,能够抵抗攻击者实施的背景知识攻击和差分攻击

3.2.1 基于 LDP 的隐私保护

  • 主要思想:原始数据在本地编码和扰动后,扰动数据被收集到云端进行聚合。由于本地客户端执行的随机扰动函数符合本地化差分隐私ε-LDP(其将数据隐私化的工作转移到每个用户,用户自己来处理和保护个人数据,极大地降低了隐私泄露的可能性)因此无论 CSP 内部攻击者具有怎样的背景知识,它都无法区分扰动元组的原始元组是哪个;
    读论文:大数据计算环境下的隐私保护技术研究进展_第6张图片

3.2.2 基于 CDP 的隐私保护

  • 主要思想:原始数据被集中聚合后再添加适当的噪音,最终返回给用户隐私保证的聚合结果。因此,它能够抵抗恶意敌手的差分攻击,避免输出隐私泄露;
    读论文:大数据计算环境下的隐私保护技术研究进展_第7张图片

3.3 小结

  • 数据匿名技术思想简单易理解,匿名算法更容易应用到主流的大数据计算框架中,执行高效的大规模数据匿名处理。但是,相比差分隐私技术,数据匿名技术在安全性方面较弱,仍然面临着背景知识攻击和差分攻击;
  • 差分隐私技术基于更严格的隐私定义能够量化隐私保护水平,更适用于对隐私保护需求比较严格的大数据应用场景。相比其他的隐私保护技术,差分隐私技术应用到大数据计算环境时一般不会给复杂的计算任务带来过多额外的计算开销和通信开销,因此该技术具有较高的研究价值和应用前景。但是对于可用性要求比较高的机器学习应用,目前影响其在产业界实际应用的瓶颈是隐私性和可用性的合理权衡问题,未来还需要进一步地改善
    读论文:大数据计算环境下的隐私保护技术研究进展_第8张图片

四、基于安全多方计算的隐私保护

如果对于共享的数据不进行加密或去隐私处理,那么将会直接破坏共享数据的机密性和隐私性。要么在数据共享之前对其进行干扰,但是会严重制约联合分析的任务类型和数据可用性,不适用于复杂的联合计算任务。要么对数据集进行加密后传输

4.1 基于混淆电路的安全多方计算

  • 主要思想:基于姚氏混淆电路的安全多方计算主要关注两方的场景,它使用布尔电路(boolean circuit)表述待计算函数,结合不经意传输(Oblivious Transfer, OT)技术设计安全多方计算协议;
  • 为了使它们扩展到大数据计算中,许多研究工作从降低通信成本、缩减执行时间和减少电路门数等角度在一定程度上优化通信、优化执行和优化电路;
    (1)关于通信优化,研究工作旨在减少计算过程中参与方之间必须要传输的数据量,达到降低通信成本的目的;
    (2)关于执行优化,研究工作旨在减少执行相同数量的电路门所需要的计算时间,保证高效的大数据隐私计算;
    (3)关于电路优化,研究工作旨在降低某个计算操作的电路门数,从而降低隐私计算的复杂度

——>综上分析可知,目前主要采取剪切和选择并行处理以及预处理等手段从不同的角度优化基于混淆电路的安全多方计算协议,使其能应用到实际的大数据计算场景


4.2 基于秘密共享的安全多方计算

  • 主要思想:算主要关注三方及以上的场景,它将每个敏感值分割为多个“秘密共享”,这样每个秘密共享都不能泄露任何有关原始值的信息,但是当重组时原始值被重构;
  • Sharemind SMC 框架:输入数据和指令被发送到多个计算参与方,数据库和堆栈中的数据在计算参与方之间秘密共享,即使存在妥协且合谋的参与方仍然能够提供安全计算和数据隐私保护;
  • 然而,随着参与方数量的增加,基于秘密共享的安全多方计算在计算过程中会带来较高的通信成本,这限制了方案的可伸缩性。为了能够扩展到多个参与方,一些研究工作借助主流的大数据计算框架实施并行处理,这能够有效地减少通信开销。陆续实现了将Spark与Sharemind SMC 框架相结合以及建立在 TensorFlow 机器学习框架之上的安全多方计算开源库等诸多方法;

4.3 基于同态加密的安全多方计算

  • 主要思想:允许计算参与方在加密数据上执行计算,同时能够保证公有云中数据隐私,其安全性和执行效率取决于底层同态加密方案的安全假设和加解密效率。为了使其能够应用到大数据计算环境下,一方面要设计能够支持大数据复杂操作的安全方案,另一方面需要重点解决加解密带来的高计算成本问题;
  • 现状:学术界主要基于已有的同态加密方案构 造支持大数据计算环境的安全多方计算协议,主要
    挑战在于如何在多方之间安全地共享和管理密钥;
  • 支持隐私计算的多方计算协议:是基于带门限的全同态加密所构建的,在每次计算阶段,所有计算参与方生成秘密密钥、公共密钥和评估密钥等系统参数,并以较低的通信成本进行多方计算和交互;
  • 支持云上实时多方计算的安全协议:采用了多密钥参与的全同态加密满足大数据实时计算的
    要求,在安全计算的过程中,每个计算参与方都有他们自己的长期公私密钥对;
  • 保护 MapReduce 计算隐私的全同态加密优化方案:解决了当云服务提供商不可信时,密钥参数有可能会被恶意敌手获取,降低协议的安全性与隐私保证的问题;

虽然全同态加密具有较高的安全保证,但是其计算成本较高。


4.4 小结

(1)基于混淆电路的安全多方计算其安全性和复杂性在于设计混淆电路,它能够在参与方之间互不串通的假设下保证安全计算;
(2)基于秘密共享的安全多方计算能够更好地扩展到多方,即使大多数参与方被妥协或者参与方之间存在合谋时,它仍然能够执行安全计算并有效地保证数据的隐私性;
(3)基于同态加密的安全多方计算的架构简单,其应用到大数据计算环境的实用性依赖底层同态加密方案的执行效率
读论文:大数据计算环境下的隐私保护技术研究进展_第9张图片


五、基于硬件增强的隐私保护

出于隐私性和高效性的权衡,研究学者提出了基于硬件增强的“加密传输,明文计算”思路,即数据被加密传输但在可信硬件支持下高效地执行明文计算;

  • Intel SGX基于安全硬件的最小可信计算基(Trusted Computing Base, TCB)提供了用户空间的安全隔离执行环境,同时能够兼容虚拟化及容器技术;
  • 而AMD硬件虚拟化技术基于可信的特权软件提供了操作系统级别的安全隔离执行环境,其安全性依赖特权软件的安全性,特别是当特权软件被妥协时其安全性受到威胁;
  • TrustZone 技术通过 CPU 将系统划分为安全和非安全的两种隔离执行环境,其主要应用到嵌入式
    平台;

5.1 基于硬件增强的大数据计算框架

  • Intel SGX:通过一组新的指令集扩展和内存访问机制,依靠受信任的硬件来保护用户级的代码和数据不受潜在的恶意特权软件的攻击。而后又有其他科研人员基于Intel SGX实现了各种其他功能:保护MapReduce分布式计算的安全系统的VC3系统、将Java代码划分为可信和不可信的部分并对于可信部分代码使用 Intel SGX 提供的应用程序接口将其重写为C/C++代码,同时采取不经意计算保护访问模式的Opaque系统等;

5.2 基于硬件增强的计算性能优化

  • 由于 Intel SGX 需要对受保护的代码和数据提供机密性和完整性保证,因此数据加密和完整性验
    证过程增加了系统性能开销。在实际应用中,考虑到大数据隐私计算的高效性要求,需要对基于硬件增强的大数据计算进行性能优化;
  • 三种可选的 enclave 安全接口设计方案

读论文:大数据计算环境下的隐私保护技术研究进展_第10张图片

  • 难点:如何合理划分程序
    ——>Glamdring将应用程序划分为可信和不可信两个部分:保护数据隐私性基于开发人员对于敏感数据的标记,执行静态数据流分析以检测所有访问敏感数据的函数;为了保证数据完整性,它采用静态向后切片来识别可能影响数据完整性的函数;
    Drawbridge 沙箱机制提供了粗粒度地隔离执行应用程序的安全容器,将应用程序、标准库以及Windows 库操作系统都放入 enclave,保护未修改的应用程序抵御外部特权软件攻击或者物理攻击;
    SCONE则是为多租户环境提供了一种安全容器机制,它也能保护未修改应用程序不受外部恶意特权软件的攻击,但是它在enclave 内放置修改的 C 标准库缩小了 TCB 大小;
    Ryoan保护数据所有者的数据免受不可信 CSP 或用户的窃取,即使分布式计算平台不可信,仍然能够提供沙箱实例保护机密数据的隐私性,保证分布式计算隐私;

读论文:大数据计算环境下的隐私保护技术研究进展_第11张图片
读论文:大数据计算环境下的隐私保护技术研究进展_第12张图片


5.3 小结

从两个角度总结如 何扩展 Intel SGX 应用保证安全且实用:
(1)将受保护的大数据应用程序放入 enclave中安全执行并非易事,在实际应用中仍面临着诸多问题。此外,对于复杂的大数据应用程序而言,划分敏感代码的开发量一般比较大,并且没有通用标准界定哪些代码应该被划分为敏感的代码;
(2)在 enclave 中执行明文计算可以在一定程度上降低系统开销。但是目前 IntelSGX 支持的 EPC 内存大小受限,当受保护的应用程序规模比较大时,特别是主流的大数据计算框架都支持内存密集型计算,enclave 需要频繁地换出/进页面以切换上下文,这也带来了较高的通信开销;


六、基于访问模式隐藏的隐私保护

尽管数据加密可以很好地隐藏数据的机密性,但是不能隐藏一些元数据,比如访问模式、数据来源和去向等。云平台内部攻击者可以利用这些元数据获得两种隐私信息,一种是根据访问模式推测出数据的相关属性,而另一种则是是根据数据来源和去向推测数据发送方和接收方的身份;

6.1 基于ORAM的不经意计算

  • 现有工作指出 ORAM 协议具有一个对数级别的性能下界,因此将其应用在数据频繁访问的大数据计算场景中,它依然面临着性能较低的瓶颈;
  • 挑战问题:安全方案设计和性能优化,研发人员指出攻击者可以从一个拼写检查应用程序的机密文档中提取数百 KB 的数据,甚至可以从一个运行在 enclave 内部的图像处理应用程序中提取出可辨别的图像轮廓。此外,许多代表性的框架都有着性能较低的问题;
  • ObliVM 系统:采用 ORAM 技术设计了通用的不经意计算平台,并提供了支持安全计算程序的编程框架。它旨在将程序编译成适用于安全计算要求的高效且遗忘式表示形式,并提供了一种功能强大且表现力较强的编程语言,以及用户友好型的隐蔽编程抽象;

通过以上分析,从安全性的角度,ORAM 技术能够保护读写操作的访问模式,并且具有可解释性。但是,在主流的大数据计算框架下,直接采用ORAM 实现不经意计算将会带来非常高的性能开销,严重地影响大数据分析的高效要求。因此,未来急需设计一种优化的分布式 ORAM 解决方案


6.2 基于不经意混洗的不经意计算

  • 学术界提出了在大数据计算中采用不经意混洗技术来实现不经意的分布式计算以达到降低成本的目的;
  • 实现方式:不经意排序和级联混合网络,它们试图产生具有足够可扩展性和效率的安全随机排列;
    (1)不经意排序:主要以数据独立的方式选择不可预测的排列并对数据进行相应排序,其有效性取决于具体排序算法的复杂度;
    (2)级联混合网络:主要通过执行 k 个串级混合步骤实现任意随机排列,其有效性取决于执行混合步骤的轮数;
  • 已有研究基于以上方式在 Intel SGX 可信硬件支持下对访问的数据执行不经意混洗,既能够隐藏访问模式实现不经意计算,也能够保证数据和关键代码的隐私性:实现了隐私数据分析的不经意计算可并行化的墨尔本混洗算法、可以同时防止内存层和网络层的访问模式泄漏的Opaque 系统以及能 够防止攻击者在不可信 CSP 的安全假设下实施网络层的访问模式泄露的M2R系统等;

6.3 小结

两种实现不经意计算的技术对比分析如下
(1)ORAM通过将每一次读或者写访问都随机地转换为一次读取和一次写回操作,使得攻击者无法区别数据的具体访问方式,从而隐藏了处理器访问内存的操作序列和地址序列访问模式。然而,由此带来的额外操作在实际应用中往往带来较高的计算开销,严重制约了其实际应用;
(2)不经意混洗通过对数据的重排列使得攻击者无法关联输入数据和输出数据的分布,从而阻止攻击者判断计算过程中的访问模式。在基于 IntelSGX 硬件支持的条件下,采用不经意排序或者级联混合网络手段实现不经意混洗方法要比 ORAM 高效的多;
读论文:大数据计算环境下的隐私保护技术研究进展_第13张图片

总结

本文对大数据计算环境下的隐私保护技术研究进展进行了综述:首先分析了大数据计算环境下的敌手模型、隐私问题与挑战,以及隐私保护的研究方向;接着,根据隐私保护技术的不同,分别总结分析了基于数据分离的隐私保护、基于数据干扰的隐私保护、基于安全多方计算的隐私保护、基于硬件增强的隐私保护、以及基于访问模式隐藏的隐私保护等研究方向的最新研究进展,并对比分析了不同隐私保护技术的优缺点;最后,展望了大数据计算环境下隐私保护技术的未来研究方向;
通过综合分析可知,不同隐私保护技术具有不同的技术特点、局限性和适用场景。而且由于每个技术其自身的缺点,未来在大数据计算环境下应用这些隐私保护技术,仍然存在很多问题需要亟待解决。


未来展望

  • 五个问题
    (1)研究低带宽网络环境下的高效数据分离保护;
    (2)研究针对复杂数据类型的高可用差分隐私保护;
    (3)研究实用型的安全多方计算协议,进一步提升性能;
    (4)研究安全增强的 Intel SGX 应用,进一步提升性能;
    (5)研究高效的通用访问模式隐藏结构;
  • 未来方向
    (1)适用于大数据计算各个环节的通用隐私保护方案;
    (2)针对端边云计算架构的可行隐私保护;
    (3)面向多数据源协同训练的隐私保护框架;

你可能感兴趣的:(大数据,网络,人工智能)