一、大数据基本概念及背景
1.1大数据发展的背景-数据爆炸
伴随着互联⽹、物联⽹、电⼦商务、社交媒体、现代物流、⽹络⾦融等⾏业的发展,全球数据总量正呈⼏何级数增长,过去⼏年时间产⽣的数据总量超过了⼈类历史上的数据总和,预计2020年全球数据总量将达到35.2ZB,⼈类将进⼊“泽它”(ZB)时(1ZB=⼗万亿亿字节)。
1.2大数据发展的背景-(感知化、物联化、智能化)
感知化:指数据源的变化。传感器、RFID标 签、芯片、摄像头遍布世界的各个角落,物理 世界中原本不能被感知的事物现在可以被感知, 它们通过各种技术被接⼊了互联⽹世界。
物联化:指的是数据传送⽅式的变化。继⼈与⼈、⼈与机器的互联后,机器与机器之间的互 联成为当下的发展趋势。未来数据可能来自于 自⾏车、电器、道路、自来⽔管,甚⾄是食物 的包装盒。
智能化:指的是数据使用⽅式的变化。“没有 解释就没有价值”。感知和互联并不是最终的 目的,数据只有经处理、分析和计算,从中提 取出有价值的东西,才能实现真正的价值。
1.3大数据发展的背景-大数据在各领域应用中逐渐崭露头
传统的面向应用的开发模式逐渐被数据驱动(DDD)的模式。大数据引发了商业、科研、政务、社会服务等领域的深 刻变革。
二、大数据的定义
麦肯锡:⼤数据是指⼤小超出常规的数据库⼯ 具获取、存储、管理和分析能⼒的数据集。(并不是说⼀定要超过特定TB的数据集才能算⼤数据)
百科:⼤数据指的是所涉及的资料量规模 巨⼤到⽆法透过目前主流软件⼯具,在合理时 间达到获取、管理、处理,并整理成帮助企业 经营决策更积极目的的资讯。
Gartner公司:⼤数据是需要新护理模式才能具有更强的决策⼒、洞察发现⼒和流程优化的海量、⾼增长率和多样化的信息资产。
美国国家标准技术研究院(NIST):数据量⼤、获取速度快或形态多样的数据,难以用传统关系型数据分析⽅法进⾏有效分析,或者需要⼤规模的⽔平扩展才能⾼效处理。
国际数据公司(IDC):从⼤数据的4个特征来定义,即海量的数据规模(Volume)、数据处理的快速性(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value),即所谓的4V特性。IBM认为⼤数据还应该具有其真实性(Veracity)。
2.1大数据的特点
2.2大数据面临的问题
三、大数据平台安全技术
大数据平台安全自身防护由多个部分构成,包括数据采集端、基础设施层、数据存储层、数据处理层、数据管理安全、能力开放层和大数据平台运营运维层的安全实施。
2.1大数据平台安全防护技术特点
(1)数据采集层:线采集和流式的实时采集。主要的应用包括基于文件、消息、表的采集系统和基于表的批量抽取软件。数据采集时需要根据采集方法的不同进行不同方式认证鉴权。数据采集时对传输通道进行加密,采用可靠的传输方式,如VPN 专线等。包括日志采集及异常告警。
(2)基础设施层:大数据平台的基础设施层的安全防护主要是集群依赖的基础设施的防护。大数据平台集群的部署通常有两种方式:部署在物理机上和部署在“云”上。部署在物理机上的集群需要考虑物理设备的安全,主要包括集群节点网络设备、主机设备和安全设备等。部署在“云”上的集群更多的需要关注“云”即虚拟资源的安全,主要包括虚拟化软件安全、虚拟机安全、虚拟化网络安全等。
(3)数据存储层:大数据平台数据存储层的安全防护由两部分组成,数据和组件的安全防护。组件的安全主要通过组件的一些配置进行防护,分为HDFS、Hive、NoSQL、MPP 四个部分。
(4)数据处理层:离线批处理:大数据生态圈目前支持MapReduce、Impala、Pig 和Tez 等离线批处理框架,这些框架技术的安全防护主要从Job Submission、Task 和Shuffle 三方面进行。实时计算:支持多用户调度时进行多用户的隔离,即每个用户中允许操作己提交的拓扑任务。
2.2大数据平台安全防护技术特点
(1)数据管理安全:大数据平台上的数据管理是利用各种技术手段,对数据进行有效的收集、存储、处理、转移和销毁。其目的在于充分有效的发挥数据的作用,实现数据的有效管理,令数据发挥出应有的价值。数据管理安全,从事前事中事后的角度对数据进行全方位的防护,以保证数据的安全性。
(2)能力开发层:大数据平台的数据资源通过数据封装、数据分析处理、可视化开发等过程,并发布到服务门户,提供给用户,实现能力开放。能力开放包括数据开放、资源开放和工具开发三部分。这三部分的安全防护除了在数据管理中提到的相关技术,还需要关注其特有的安全。
(3)大数据平台运维运营层:运营运维的安全作为大数据平台安全保障的基石,一旦出现安全问题,会直接威胁到服务器乃至整个平台的安全。在企业日常运营中,运维安全事件的出现通常预示着这个企业的安全规范、流程有问题,甚至波及公司的核心业务。
四、大数据网络安全防护技术
4.1边界模式:
所谓边界模式,就是人为设立一个关卡,一个防火墙,边界以内是内网,边界以外是外网,所有的访问都要经过授权。这是一个典型的传统防御思维。这种防护方式曾经有效,但现在有两个毛病:
(1)完全阻碍了数据的流动,内外网缺乏共享机制。
(2)内网完全没有防护能力,当你和互联网脱离以后,你的桌面安全防护,包括你的网关都很难及时做到更新。现在都流行数据上云,边界已经越来越模糊,但这种方法依然还有必要。只不过,面对大数据安全挑战,只凭这一种被动防御的思路,已经远远不够了.
4.2基于架构的安全防护思路:
清朝有城墙、有城门、还有守卫,而现在我们什么都没有,除了中南海,所有地方都是给钱就能进。但是,古代会比现代更安全吗?答案显然是否定的。为什么,因为现在城市里有城管、有交警,还有大量的摄像头。我们基于架构上的安全防护思路和这个基本上一致。在Hadoop 的分布式存储框架下,我们用SSL 加密,用Kerberos 做凭证服务,实现组件和客户端之间的身份认证。
它的优势是无须部署边界,可以对外提供服务。它的问题在于部署和运维成本高。当集群增加节点时,你需要重新调整Kerberos,很多用户出现问题,都是因为这。
4.3以数据为核心的保护思路:
在大数据时代,数据记录着每个人的行为轨迹。银行、政府机构甚至身边的每一个人,都对我们做了标记化处理。信用记录不良的人,银行会拒绝贷款;频繁跳槽,用人单位招聘时就会有所顾虑;隔三差五换伴侣的,会被打上花心的标签,然后被周围人敬而远之当然,这些例子都不绝对。我们主要是表达,这种对主体对象进行标记化处理的方法,和大数据安全中,以数据为核心的保护思路如出一辙。数据都有不同的属性。从保护等级而言,有公共数据,也有机密性数据;从数据类型上来看,有征信数据,也有人脸识别数据。我们基于不同的属性,对数据进行标记化处理。这样外部访客就只能访问公共数据,而内部人员就可以访问机密性数据;负责征信的数据分析师可以访问征信数据,但不能访问人脸识别数据。此外,这种保护思路,还有脱敏加密的功能,这就有效解决了数据共享的问题。坏处主要就是,会有明显的性能损耗。
五、大数据时代的数据安全
5.1建设完善管理制度
数据安全管理制度是数据安全实践工作的制度保障。在数据安全防护实践中,数据安全制度规程提供具体的方式方法,以规范化的流程指导数据安全管理工作的具体落实,避免了“无规可依”的现象的生产,它是数据安全管理工作的实操作中的办事规程和行动准则
5.2善于变革、融合、创新
在技术飞速发展的新时代,我们不能墨守成规,要用创新的思想融合大数据与云计算技术,提升数据流量规模、层次及内涵,在大数据流中提升知识价值洞察力,来改变我们企业的示来。在数据洪流大潮中寻找新的立足点,尤其在领域数据挖掘、人工智能、机器学习等领域。
5.3存储传输安全:
在大数据安全服务的设计中,数据的存储安全、传输安全主要采用的就是加密的方法,实现数据集、节点和应用程序之间数据移动的保护数据加密的常用方法是分离密钥和加密数据。使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开。同时定义产生、存储、备份、恢复等密钥管理生命周期数据在转输过程中要进行流量和流向的监控、一旦发现数据离开了用户的网络,数据量过预警阀值时,就自动阻止数据的再次传输,并通知管理员通过系统容灾、敏感信息集中管控和数据管理等产品,实现端对端的数据保护,确保大数据损坏情况下有备无患和安全管控。
5.4Web应用安全:
Web 应用包含了从HTTPS 请求的输入开始,经过应用的各种处理,最后由HTTPS 响应进行输出的过程Web 应用常用的安全隐患的对策:WEB 应用上线前安全检测,网页防篡改,WEB 应用攻击防护,重定向相关的安全隐患对策,Cookie 输出相关的安全隐患对策,发送邮件的问题对策,文件处理相关的问题对策,include 相关问题的对策,eval 相关的问题对策,共享资源相关问题的对策。
本文作者:开源社区——爱吃西红柿卡奥斯开源社区 — 打造工业互联网顶级开源社区