特征:多样化、海量化、快速化、价值密度低、复杂
基于互联网的计算新方式,通过互联网上异构、自治的服务为个人和企业用户提供按需即取的计算、软件和信息
资源共享、按需分配、弹性调度、服务可扩展、普通接入、系统安全、地理分布
按服务方式:自下而上的基础设施为基础设施即服务层(IaaS)、平台即服务层(PaaS)、软件即服务层(SaaS),三者没有必然联系,也不相互依赖
**按部署方式:**公共云、私有云和混合云
提供虚拟硬件资源,如虚拟主机、存储、网络、数据库等
把公有的能力进行提取,以开放的接口,提供给个人及第三方进行开发使用
一种提供软件的商业模式。客户根据自己实际需求,通过互联网向厂商定购所需的应用软件服务,按定购服务的多少和时间长短向厂商支付费用,并通过互联网获得厂商提供的服务
企业自己使用的云,所有提供服务不是供外部人员使用
为外部用户提供服务的云,所有的服务是供外部人员使用
把公用云模式和私有云模式结合在一起
云计算可以说是单机计算、并行计算、分布式计算、网格计算的延展
计算由单机独立完成,具有较好的安全性能
同时使用多种计算资源处理问题的过程,时间上的并行计算指流水线技术,空间上的并行指用多个处理器并发的执行计算。目前的并行计算多指后者,此方式划分的任务之间有很强的关联性,容错性较差,导致并行计算的价格较高,多使用于科学计算中
在两个或多个软件互相共享信息,计算任务既可以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。实现稀有资源共享,实现任务的平衡计算负载,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一
利用互联网把分散在不同地理位置的计算机组织成一个虚拟的超级计算机,其中每一台参与计算的计算机就是一个“节点”,而整个计算是有成千上万个“及诶单”组成的“一张网格”。具有超强的数据处理能力,能充分利用网络中的限制处理能力
云计算 | 网格计算 | |
---|---|---|
目标 | 提供通用的计算平台和存储空间,提供各种软件服务 | 共享高性能计算力和数据资源,实现资源共享和协同工作 |
资源来源 | 同一机构 | 不同机构 |
资源节点 | 服务器/pc | 高性能计算机 |
虚拟化视图 | 虚拟机 | 虚拟组织 |
计算类型 | 松耦合问题 | 紧耦合问题为主 |
应用类型 | 数据处理为主 | 科学计算为主 |
用户类型 | 商业社会 | 科学界 |
付费方式 | 按量计费 | 免费 |
标准化 | ITU、Oasis、OCC、CSA等开始制定标准 | 国际标准OGSA/WSRF |
架构:云计算以服务器集群为中心,计算和数据存储都由网络中的云端完成,终端可以只实现输入输出;P2P强调去中心化理念,实现对终端能力的充分挖掘,网络只是传输管道
服务质量:云计算的服务器集群具有高度的稳定性 ,这使得基于云计算实现的应用范围更广阔;P2P网络具有天然的高动态性,导致P2P的应用性能存在天然缺陷
网络流量:云计算服务器之间是分布式结构,对外类似C/S模式,流量具有天然的非对称特点,符合现阶段的网络带宽特点;P2P产生的流量具有上下行趋于相等的趋势
云计算是大数据处理的基础,大数据是云计算的延伸。云计算代表着一种数据存储、计算能力,大数据代表着一种数据知识挑战,计算需要数据来体现其效率,数据需要计算来体现价值。
**腾讯数据挖掘体系:**数据层、分析等、算法层、输出层、投放层
算法层具有定向规则过滤,输出层严格控制细分人群的精准投放率,投放层控制投放频次进行算法配置
阿里云梯Hadoop集群采用HDFS和MapReduce技术。为了实现原始表、中间表、元数据共享,避免重复计算和存储没在阿里云梯Hadoop集群上构建了阿里巴巴数据交换中心
百度重点在大数据规模数据存储、数据分析以及数据索引等方面做了研究与应用
基础理论:
ACID(atomicity、consistency、ioslation、durability),原子性、一致性、隔离性、持久性。
原子性:对于事务中的所有操作要么全做,要么全不做
一致性:事务开始之前,数据库处于一致性的状态,事物结束后,数据库也必须处于一致性状态
隔离性:系统必须保证事务不受其他并发执行的事务影响
持久性:一个事务一旦成功完成,他对数据库的改变必须是永久的,即便是在系统遇到故障的情况下也不会丢失
优点:
较强的并发读写能力、数据强一致性保障、结构化查询与复杂分析能力、标准的数据访问接口、操作方便、易于维护、便于访问数据、更安全便捷
NoSQL
基础理论:
BASE(basically avilable、soft state、eventually consistent),基本可用、软状态\柔性事务、最终一致性
安全问题:
模式成熟度不够。没有严格的访问控制和隐私管理工具;允许不断对数据记录添加属性,需要为这些新属性定义安全策略
系统成熟度不够。存在各种漏洞
客户端软件问题。没有内置足够的安全机制,必须对访问这些软件的客户端应用程序提供安全措施,但会产生如下问题:
数据冗余和分散性问题。大数据系统将数据分散在不同地理位置、不同服务器中,以实现数据的优化查询处理及容灾备份。
大规模网络主要面临的问题包括:
安全数据规模巨大;安全事件难以发现;安全的整体状况无法描述;安全态势难以感知
大规模网络安全事件的应对手段:
访问控制、入侵检测、身份识别等基础防御手段;及时感知网络中的一场事件与整体安全态势,从成千上万的安全事件和日志中找到最有价值、最需要处理和解决的安全问题。
大数据通常包含了大量的用户身份信息、属性信息、行为信息。大数据的多元性,使得来自各个渠道的数据可以用来进行交叉检验,多源交叉验证可可能发现匿名化数据后面的真实用户。
大数据中的隐私泄露形式:
APT特点:
APT使得传统以实时监测、实时阻断为主体的防御方式难以发挥作用,在面对大数据的APT对抗中,必须转换思路,采取新的检测方式,以应对新挑战
大数据安全应该包括两个层面的含义:保障大数据安全和大数据用于安全。
保障大数据安全:保障大数据计算过程、数据形态、应用价值的处理技术,涉及到大数据自身安全的问题
大数据用于安全:利用大数据技术提升信息系统安全效能和能力的方法,设计如何解决信息系统安全问题
大数据自身产生的安全问题
大数据以为这数据及其承载系统的分布式和鲁棒性,单个数据和系统的价值相对降低,空间和时间的大跨度,价值的稀疏,外部人员更不容易寻找攻击点。在大数据环境下完全的去中心化很难,对于低密度价值的提炼过程也是吸引攻击的内容。
为结局大数据自身的安全问题,需要重新设计和构建大数据安全构架和开放数据服务,从网络安全、数据安全、灾难备份、安全风险管理、安全运营管理、安全事件管理、安全治理等各个角度考虑,部署整体的安全解决方案,保障大数据计算过程、数据形态、应用价值的安全。
大数据对安全分析提供新的可能性,对于海量数据的分析有助于更好地刻画网络异常行为,从而找出数据中的风险点,指定更好的预防攻击,防止信息泄露的策略。
目前大数据在信息安全的领域的应用包括两个方面:宏观上的网络安全态势感知和微观上的安全威胁发现。
网络态势感知:运用大数据技术特有的海量存储、并行计算、高校查询等特点,解决大规模网络安全事件数据的有效获取,海量安全事件数据的实时关联分析,客观、可理解的网络安全指标体建立等问题,从中发现主机和网络异常行为,起到全局安全预警的作用。
安全威胁发现:大数据中刚发现微观事件,特别是高级持续性威胁攻击发现。通过全面收集重要终端和服务器上的日志信息,以及采集网络设备上的原始流量,利用大数据技术进行分析和挖掘,检测并还原整个APT攻击场景,能够起到动态预防的安全作用。
一:确保大数据安全的关键技术,设计大数据业务链条上的数据产生、存储、处理、价值提取、商业应用等环节的数据安全防御和保护技术
二:利用设计安全信息的大数据在信息安全领域进行分析与应用,涉及安全大数据的手机、整理、过滤、正和、存储、挖掘、审计、应用等环节的关键技术
目标:最大程度的保护具有流动性和开放性特征的大数据自身安全,防止数据泄露、越权访问、数据篡改、数据丢失、密钥泄露、侵犯用户隐私等问题的出现。
大数据安全生命周期
建立 --> 存储 --> 使用 --> 分享 --> 封存 --> 销毁
对大数据挖掘和分析的前提是采集足够多的数据,其后的集成、分析、管理都构建于数据采集基础之上。但是数据在采集、过滤、整合、提炼过程中常常涉及采集合规、敏感信息、隐私数据、传输安全、接口安全等问题。
采集阶段
网络层针对数据应用的网络架构与系统入口进行安全防护,例如防火墙和入侵监测等手段
设备层采用设备安置及无力保护、设备处置与重用安全、存储设备安全要求、服务器安全要求、终端安全管理、接入设备安全要求等防护措施
数据传输阶段
数据安全存储
数据挖掘阶段
太常规了,采用SSL VPN技术保证大数据传输过程中的应用
特点
工作模式
隐私保护技术主要保护以下两方面的内容
隐私保护技术的分类
基于数据变换的隐私保护技术
对敏感属性进行转换,使原始数据部分失真,但是保持某些数据或数据属性不便的方法。数据失真技术通过扰动原始数据来实现隐私保护,它要使扰动后的数据同时满足以下两点
目前该类技术主要包括随机化、数据交换、添加噪声等。一般来说,当进行分类器构建和关联规则挖掘,而数据所有者又不希望发布真实数据时,可以预先对原始数据进行扰动后再发布。
基于数据加密的隐私保护技术
采用对称或非对称加密技术在数据挖掘过程中隐藏敏感数据,多用于分布式应用环境中,如分布式数据挖掘、分布式安全查询、几何计算、科学计算等。
分布式一般采用两种模式存储数据:
基于匿名化的隐私保护技术
匿名化是根据具体情况有条件地发布数据。限制发布即有选择的发布原始数据、不发布后者发布精度较低的敏感数据,以实现隐私保护。数据匿名化一般采用两种基本操作。
基于数据变换的技术,效率比较高,但却存在一定程度的信息丢失;基于加密的技术能保证最终数据的准确性和安全性,但是计算开销较大;限制发布技术的优点是保证所发布的数据一定真实,但发布的数据会有一定的信息丢失
常见的备份与恢复机制
异地备份
RAID(独立磁盘冗余阵列)
数据镜像
快照
大数据的备份与恢复
Hadoop分布式文件系统HDFS
数字水印技术特征
数字水印利用数据隐藏原理使水印标志不可见,既不损害原数据,又达到了对数据进行标记的目的。将数字水印引入大数据应用领域,解决数据溯源问题。在数据发布出口,建立数字水印加载机制,在进行数据发布时,针对重要数据,为每个访问者获得的数据加载唯一的数字水印。当发生机密泄露或隐私问题时,可以通过水印提取的方式,检查发生问题数据是发布给哪个数据访问者的,从而确定数据泄露的源头,及时进行处理
描述 | 属性 | 传统攻击 | APT攻击 |
---|---|---|---|
who | 攻击者 | 大范围寻找目标的黑客 | 资金充足、有组织、有背景的黑客团队 |
what | 目标对象 | 在线零售业及其用户 | 国家重要基础设施、重点组织和任务 |
目标数据 | 信用卡数据、银行账号、个人信息等 | 价值很高的电子资产,如知识产权、国家安全、商业机密等 | |
why | 目的 | 获得经济利益,身份窃取等 | 提升国家战略优势、操作市场、摧毁关键设施等 |
how | 手段 | 传统技术手段、重点攻击安全边界 | 深入调查公司员工信息、商业业务和网络拓扑、攻击终端用户和终端设备 |
工具 | 常用扫描工具、木马 | 针对目标漏洞定制木马等攻击工具 | |
0day工具使用 | 极少 | 普遍 | |
遇到阻力 | 转到其他脆弱机器 | 构建其他方法或工具 |
检测方案:
APT攻击检测中,存在的问题包括:
基于记忆的检测可以有效缓解上述问题,现在对抗APT的思路是以时间来对抗时间。既然APT是在长时间发生的,我们的对抗也要在一个时间窗内来进行对抗,对长时间、全流量数据进行深度分析。针对A问题,可以采用沙箱方式、异常检测模式来解决特征匹配的不足;针对P问题,可以将传统基于试试时间点的检测,转变为基于历史时间窗的检测,通过流量的回溯和关联分析发现APT模式。而流量存储与现有检测技术相结合,构成了新一代基于记忆的智能检测系统。此外,还需要利用大数据分析的关键技术。
新的防御体系:
非法外联行为: