大数据安全保护技术综述-网络与信息安全学报-2016

本论文从加密算法、完整性校验、访问控制技术、密文数据去重和可信删除、密文搜索等方面,对当前大数据安全保护关键技术的研究现状进行分类阐述。

一、大数据安全需求

        1. 机密性

        数据机密性是指数据不被授权者、实体或进程利用或泄露的特性。为了保障大数据安全,数据常常被加密。常见的加密方法有公钥加密、私钥加密、代理重加密、广播加密、属性加密、同态加密等。传统的加密方法不能直接用在大数据上的原因是数据加密和解密会带来额外的计算开销,需要以尽可能小的计算开销带来可靠的数据机密性。
        支持关键字搜索是大数据数据安全保护的一个重要方面。已有的支持搜索的加密只支持单关键字搜索,并且不支持搜索结果排序和模糊搜索。目前,这方面的研究集中在明文中的模糊搜索、支持排序的搜索和多关键字搜索等操作。如果是加密数据,用户需要把涉及的数据密文发送回用户方解密之后再进行,严重降低效率。
        2. 完整性
        数据完整性是指数据没有遭受以非授权方式的篡改或使用,以保证接收者收到的数据与发送者发送的数据完全一致,确保数据的真实性。远程数据完整性验证是解决云中数据完整性检验的方法,能够在不下载用户数据的情况下,仅仅根据数据标识和服务器对于挑战码的响应对数据的完整性进行验证。
        3. 访问控制
        在保障大数据安全时,必须防止非法用户对非授权的资源和数据等的访问、使用、修改和删除等各种操作,以及细粒度的控制合法用户的访问权限。
二、大数据安全保护技术研究进展和未来趋势
        1. 加密算法
        针对大数据的机密性,我们可以使用加密算法对数据加密。
        DES、AES等对称加密手段,虽然能保证对存储数据的加解密速度,但其密钥管理较为复杂,不适合有大量用户的大数据环境中;传统的RSA等非对称加密手段,虽然对密钥易于管理,但算法计算量太大,不适用于对不断增长的大数据进行加解密。
        开发快速加解密技术是大数据安全保护技术的一个重要研究方向。
        1.1. 属性加密
        方案有:
        (1)公钥、私钥都和数据属性相关联。当用户私钥具备解密数据的基本属性时,用户才能够解密出数据明文。公钥、私钥都和数据属性相关联。当用户私钥具备解密数据的基本属性时,用户才能够解密出数据明文。
        (2)细粒度的访问控制的属性加密方案:在私钥当中嵌入接入策略。只有当用户属性满足接入策略时,密钥才可以恢复,从而解密消息。可以支持任意单调的包含与/或限门的接入公式。
        (3)安全、可扩展的细粒度访问控制的属性加密方案。
        (4)支持用户审计的细粒度访问控制的属性加密方案,可防止大数据中非法的密钥共享。
        (5)密文策略的属性加密方法,将接入策略嵌入在密文当中,而解密私钥只与属性集合相关。当密文的接入策略发生改变时,密文重新加密,且无需重新分配属性对应的解密私钥。该方案需要一个属性授权中心,对属性以及属性对应的解密私钥进行管理。
        (6)多授权中心属性加密系统,每个授权中心管理不同的属性哉。当属性撤销或者属性中一个用户撤销时,密钥更新就产生问题。
        (7)属性加密的外包解密方案:将复杂的解密操作由云服务提供商转化为一个普通的ELGamal解密问题,终端只需要一次模指数去处,可有效降低终端的解密计算量。
        小结:基于属性的加密算法的时间复杂度很高,使这种加密方式在大数据中的应用并不广泛。随着大数据研究的进一步深入,加密算法的时间复杂度进一步降低,属性加密将应用在未来的大数据中。
        1.2. 代理重加密
        允许第三方改变数据发送方加密后的密文,使数据接收方可以解密,而第三方并不知道原文。
        方案有:
        (1)允许一个半可信的代理者将数据发送者的密文转换为数据接受者可以解密的密文,同时不泄露数据发送者的明文消息。
        (2)基于身份的代理重加密方案,以用户的唯一身份信息作为公钥参与重加密,具有意向性、非传递性、非交互性等特点。
        (3)对(2)进行改进,优化了重加密密文空间的大小并隐藏了代理的身份。
        (4)分类代理重加密技术:使数据分发者能够对密文委托权实施细粒度的分类控制。
        (5)无证书的代理重加密算法以及基于身份的密钥托管协议。
        (6)基于身份的可撤销代理重加密机制。
        (7)条件代理重加密方案:引入访问控制机制,只有当重加密密钥和指定密文条件同时满足时,解密操作才被允许。
        小结:大部分现有方案大多仅限于关键字条件,如何构造支持布尔条件的条件代理重加密算法需进一步研究。
        1.3. 同态加密
        是一种加密形式,对密文做特定的代数去处后得到加密的结果,与对明文同样的运算结果一样。同态加密可以无需对数据解密而进行各种操作,比如对加密数据的检索、比较等,从根本上解决将数据及其操作委托给第三方时的保密问题。广泛应用在各种云计算中。
        基于理想格中的一种判定问题和稀疏子集求和问题的完全同态加密方案,只能规约到平均情况下的困难问题。为了提高完全同态加密方案的安全性,有以下方案:
        (1)设计密钥生成算法,该算法将完全同态加密方案的安全性建立在稀疏子集求和问题和理想格中一种最坏情况下的困难问题上。
        (2)基于标准LWE问题设计了新的完全同态加密方案,该方案有更高的安全性,因为LWE问题都可规约到最坏困难问题。
        (3)提出一种允许多个密钥参与的完全同态方案。该方案基于理想格,比传统的完全同态加密方案更加灵活、实用。
        加密算法是实现大数据安全保护与共享的基础,面对日益增长的大数据,现在加密算法在加解密效率、密钥管理等方面有着明显的不足。完全同态加密算法和基于LWE问题的部分同态加密算法能解决大数据安全保护的计算问题,但是这些算法需要进行大量复杂的指数运算,大大降低了数据的处理效率。因此,提高计算效率将是同态加密算法研究的重要方向。
        2. 完整性校验
        当大数据存储到云端之后,用户就推动了对数据的控制权。用户最关心的问题是,如果云服务商不可信,所存储的文件是否被篡改、丢弃等。解决这个问题的最简单方式就是将其全部取回检查,但该方法不可取,因为要耗费大量的网络带宽,特别是当云端数据量非常大时。当前,对云端大数据完整性进行校验主要依靠第三方来完成,根据是否允许恢复原始数据,当前的数据完整性校验协议主要可以分为2类:只验证数据完整性的PDP协议和允许恢复数据的POR协议。
        目前,大数据完整性校验算法还不能支持数据动态变化,与PDP算法(可证明的数据持有协议)相比,POR算法(可恢复证明协议)具有数据恢复功能和更高的实用性。因此,研究支持数据动态变化的POR算法将是大数据安全保护的研究要点。此外,数据可能属于不同的所有者且数据规模庞大,研究支持多主权大数据完整性指检验也将是未来大数据完整性校验协议的发展趋势。
        3. 访问控制
        3.1. 基于角色的访问控制方法,对不同角色赋予不同的访问控制权限。
        3.2. 基于属性的访问控制是通过综合考虑各类属性,如用户属性、资源属性、环境属性等,来设定用户的访问权限。
        大数据在给传统访问控制带来挑战的同时,也带来了机遇。随着大数据的规模不断增长,并在不同领域的应用,将有更多的数据在不同系统中流转,研究可耦合的细粒度访问控制技术迫在眉睫。此外,在大数据中,不同数据的功能和安全需求不一样,研究多层次和多级安全的访问控制新技术将是未来大数据访问控制技术的发展方向。
        4. 密文数据去重和可信删除
        4.1. 密文数据去重
        存储在云端大数据有很多重复的、冗余的数据。为了节省存储空间和降低成本,一些重复数据删除技术被用来删除在云端的大量重复数据。在云环境中,数据往往是被加密成密文存储,且相同的数据会被加密成不同的官方。因此,很难根据数据内容对重复的安全数据进行删除。密文数据去重技术是近年来数据安全领域中新兴的研究热点,其不仅可以节省存储空间开销,而且可以减少网络中传输的数据量,进而节省网络带宽开销,在大数据时代具有更为广阔的应用价值。目前,大数据中密文数据去重研究主要集中在收敛加密方式。研究在一般化加密方式中密文数据去重是大数据安全保护的研究重点。
        4.2. 数据可信删除
大数据存储在云端时,当用户发出删除指令后,可能不会被云服务商真正的销毁,而是被恶意地保留,使其面临被泄露的风险。传统的保护存储在云端数据安全的方法是,在将数据传输之前进行加密,则数据可信删除就变成了用户本地密钥安全销毁,一旦用户安全销毁密钥,那么存在数据即使被泄露,被泄露的数据也不能在多项式时间内被解密,从而保护了数据安全。目前,数据可信删除技术尚在起步阶段,主要通过第三方来删除密钥来实现。在大数据环境中,如何实现真正的可信任的数据可信删除是未来大数据安全保护技术的研究要点。
        5. 密文搜索
        大数据经常以密文形式存储在云端,这使数据查询变得困难。此外,采用一般加密方法加密时,索引是无法建立的,从而导致查询效率低。目前,主要的可搜索加密技术可分为两种:对称可搜索加密技术和非对称可搜索加密技术。
        对称可搜索加密技术主要是通过可搜索加密机制建立安全加密索引,在文件与检索关键词之间建立检索关联。在密文搜索时,数据拥有者为数据使用者提供陷门,从而完成密文检索。对称可搜索加密算法的检索效率较差,其检索时间与密文数据总长度呈现线性增长关系。
        非对称可搜索加密技术允许数据发送者以公钥加密数据与关键词,而数据使用者则利用私钥自行生成陷门以完成检索,从而解决服务器不可信与数据来源单一等问题。

        大数据经常以密文形式存储在云端,为了实现这些数据的安全性和可用性,可搜索加密技术研究将集中在支持多样化查询的搜索和相关性排序,以及进一步提升搜索的效率和精度。具体体现在以下三点:(1)对称可搜索加密技术在大数据环境中,其检索性能显著下降,且可扩展能力差。研究支持多类型的搜索,如短语搜索和邻近搜索等,是未来大数据安全保护技术的发展方向。(2)当前非对称可搜索加密的查询效率低。研究简单、高效、安全的非对称可搜索加密算法是未来大数据安全保护技术的研究重点。

        (3)目前,可搜索加密算法能实现一般结构数据的动态变化和多关键词的密文搜索。然而,大数据结构十分复杂、类型繁多、搜索需求多样化,研究支持在复杂结构中的多样化查询的加密算法是非常重要的。

你可能感兴趣的:(大数据)