考纲
1、大数据安全概念及目标
(1)如何在满足可用性的前提下实现大数据机密性和完整性
(2)如何实现大数据的安全共享
(3)如何实现大数据真实性验证与可信溯源
大数据全生命周期:
大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节
安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用
2、传统访问控制技术和基于密码的访问控制技术。
访问控制(Access Control):确保数据等资产只能经过授权的用户才能访问、使用和修改。
访问控制策略(Policies):是对系统中用户访问资源行为的安全约束需求的具体描述。
访问控制模型(Model):是对访问控制策略的抽象、简化和规范。
早期的访问控制技术都是建立在可信引用监控机基础上的
① 主体:能够发起对资源的访问请求的主动实体,通常为系统的用户或进程。
② 客体:能够被操作的实体,通常是各类系统和数据资源。
③ 操作:主体对客体的读、写等动作行为。
④ 访问权限:客体及对其的操作形成的二元组<操作,客体>。
⑤ 访问控制策略:对系统中主体访问客体的约束需求描述。
⑥ 访问(引用)授权:访问控制系统按照访问控制策略进行访问权限的赋予。
⑦ 引用监控机(Reference Monitor,RM):指系统中监控主体和客体之间授权访问关系的部件
⑧ 引用验证机制(Reference Validation Mechanism,RVM):是RM的软硬件实现。引用验证机制RVM是真实系统中访问控制能够被可信实施的基础。
BLP 用于保护系统的机密性 核心规则是“不上读、不下写”
BIBA 关注完整性 用于防止用户或应用程序等主体未授权地修改重要的数据或程序等客体 可以看作是BLP模型的对偶。=> 不上写,不下读
RBAC的四种模型
① RBAC0模型(Core RBAC),定义了用户、角色、会话和访问权限等要素。
② RBAC1(Hierarchal RBAC)在RBAC0的基础上引入了角色继承的概念。
③ RBAC2(Constraint RBAC)增加了角色之间的约束条件,例如互斥角色、最小权限等。
④ RBAC3(Combines RBAC)是RBAC1和RBAC2的综合,探讨了角色继承和约束之间的关系。
3、角色挖掘的算法
1.基于层次聚类的角色挖掘:
凝聚式角色挖掘方法 将权限看作是聚类的对象,通过不断合并距离近的类簇完成对权限的层次聚类,聚类结果为候选的角色。
分裂式角色挖掘方法 分类方法,不断将角色集中的角色按类别划分。
2.生成式角色挖掘方法
将角色挖掘问题映射为文本分析问题,采用两类主题模 型LDA(Latent Dirichlet Allocation)和ATM(Author Topic Model)进行生成式角色挖掘,从权限使用情况的历史数据来获得用户的权限使用模式,进而产生角色,并为它赋予合适的权限,同时根据用户属性数据为用户
分配恰当的角色。
3.画偏序关系图
e:类簇 二元组
每一步距离最近的权限聚一次类
聚类的最终结果:er24和er135两种
距离计算:优先用户做交集,然后权限做并集 容易产生超级用户
4、对称密码,非对称密码,hash算法的原理及作用
(1) 密钥的分配和管理:
对称密码密钥数量大,密钥的分配和管理困难
公钥密码密钥数量小,密钥的分发十分方便。
(2) 数字签名功能:
对称密码不能提供不可否认的数字签名功能,
公钥密码可以提供不可否认的数字签名。
(3) 实际使用:
对称密码算法速度快,适合加密大批量数据;
公钥密码算法速度慢,适合完成对称密码算法的密钥分配以及数字签名、身份鉴别等各种密码协议
s盒:
p盒:
DES算法
明文和密文为64比特长度,加密和解密使用同一算法。
密钥长度:实际有效密钥长度为56比特,每个字节的第8位为奇偶校验位
AES算法 看锤子,又长又臭记不住 搞个例子差不多了
分组密码:
ECB
CBC
CTR
HASH算法
1.MD5
2.SM3
消息鉴别码(认证码)——MAC(message authentication code)
HMAC——基于HASH算法的、带密钥的消息鉴别码
作用:解决对称密码的不足
A. 密钥分配/协商问题
B. 密钥管理问题
C. 数字签名和身份鉴别功能
功能:
加密:数据机密性
数字签名:真实性、完整性、不可抵赖性
密钥交换:协商对称密钥
身份认证:真实性
RSA
1.欧拉函数φ(n)
2.d是e对mod(n)运算的逆元
辗转相除法求模的逆元
解释: 31=18*1+13 13=5*2+3
61-1 mod 105 = 31 逆元:本数 运算 逆元 = 单位元=>61*31 mod 105 = 1
5、密文索引的基本思想,及设计
密文检索主要涉及数据所有者、数据检索者以及服务器3种角色
系统流程:
① 数据所有者首先为数据构造支持检索功能的索引,同时使用传统的加密技术加密全部数据,然后将密文数据和索引共同存储到服务器。
② 需要检索时,数据检索者为检索条件生成相应的陷门,并发送给服务器。
③ 服务器使用索引和陷门进行协议预设的运算,并将满足检索条件的密文数据返回给数据检索者。
④ 数据检索者使用密钥将检索结果解密,得到明文数据。有时服务器返回的密文数据中可能包含不满足检索条件的冗余数据,此时数据检索者还需要对解密后的明文数据进行二次检索,即在本地剔除冗余数据。
密文关键字检索技术具体设计四个中至少得会一个,需要从头到尾完成设计
1.基于全文扫描的方案
2.基于文档-关键词索引的方案
核心思路是为每篇文档建立单独的索引,且服务器在检索时需要遍历全部索引,检索时间复杂度与文档数目成正比
基于布隆过滤器的密文关键词检索方案 由于Hash函数的计算结果可能存在冲突,布隆过滤器可能会发生误判
位数组即是索引,集合即是密文数据集,有k个hash函数,每一条数据就会映射到k位上。
数据所有者首先对每个数据(设为数据a)hash k次,把对应位记为1.数据检索者想要检索数据a,就根据这些hash函数检查对应位,若全是1就认为a是数据库中的数据。
6、身份认证技术及实现
实现:基于口令的身份认证技术
21年真题
1.简析大数据生命周期中存在哪些安全风险,我们可以使用哪些技术手段实现安全目标?(10)
大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节
安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用四个阶段
技术手段:
数据采集:安全多方计算,本地差分隐私(LDP)
数据传输:SSL通讯加密协议、或采用专用加密机、VPN技术
2.简析自主访问控制技术的原理和实现,叙述自主访问控制技术在大数据环境下的优点和缺点。(15)
自主访问控制模型:客体的属主决定主体对客体的访问权限。可以被表述为(S,O,A)三元组。
其中,Subject表示主体集合,Oblect表示客体集合,Access matrix表示访问矩阵,A(si ,oj)则表示主体si能够对客体oj执行的操作权限。
访问矩阵A在实际系统中主要有两种实现方式:
①基于主体的能力表(Capabilities List,CL)
②基于客体的访问控制列表(Access Control List,ACL)
在大数据环境下,主体和客体数量巨大,无论哪种实现方式,自主访问控制模型都将面临权限管理复杂度爆炸式增长的问题。因此,直接采用自主访问控制模型是非常困难的。
3.比较对称加密算法和公钥加密算法的优缺点以及在大数据安全背景下的应用。(15)
优缺点:
(1) 密钥的分配和管理:
对称密码密钥数量大,密钥的分配和管理困难
公钥密码密钥数量小,密钥的分发十分方便。
(2) 数字签名功能:
对称密码不能提供不可否认的数字签名功能,
公钥密码可以提供不可否认的数字签名。
应用:
对称密码算法速度快,适合加密大批量数据;
公钥密码算法速度慢,适合完成对称密码算法的密钥分配以及数字签名、身份鉴别等各种密码协议
4.简述RSA算法的原理和设计方案(15)
5.简述消息鉴别码(MAC)的作用以及HMAC的实现原理(15)
验证接收消息的真实性和完整性
填充密钥后和消息组合,经过HASH函数运算得到MAC
6.现有n个文本文件,设计密文关键字检索技术(15)
7.某机构有一个安全中心T和n个用户,设计通过T向用户分发密钥的方案以及用户之间的数据安全共享方案。(15)
T向每一个用户发送一个<公钥,私钥>密钥对,其中公钥所有用户都能访问,而私钥只有拥有者能够访问。
用户A对B传输时,对数据用B的公钥进行加密,然后A用自己的私钥进行解密,即可得到真实的数据内容。
其中,公钥和私钥的设计是通过陷门进行的,一个具体的实现是RSA算法。