深入浅出大数据--课本学习 one

深入浅出大数据–课本学习

寒假期间完成学习此书

  • 大数据概述
  • 大数据关键技术
  • 基于Hadoop的生态系统
  • 分布式文件系统HDFS
  • 分布式计算框架MapReduce
  • 资源管理框架
  • 分布式存储数据库HBase
  • 数据仓库Hive
  • 数据分析与挖掘Mahout
  • 大数据应用

大数据概述

1.1 大数据发展历程

Big Data 早在2008年就有研究人员对这一领域开始研究。近几年发展迅猛,是IT技术发展到一定阶段的必然产物。
大数据产业生态大致分为三个层次:大数据应用,大数据基础设施,大数据技术,目前大数据市场还是处在初级阶段,也是形成大数据市场竞争格局的关键时期。

1.2 大数据的定义及特征

比较公认的定义:互联网数据中心(IDC)从大数据的4个特征来定义,即海量的数据规模(Volume)、数据处理的快速性(Velocity)、多样的数据类型(Variety)、数据价值密度低(Value),所谓的“4V”特性。
Volume: 数据的存储容量从TB到ZB数量级。
Variety : 新型多结构数据量爆炸式增长,半结构化或非结构化数据
Velocity : 最显著特征,“秒级响应定量”,时效性,实时性。
Value : 数据价值隐藏在海量数据中。

1.3 大数据与传统数据的区别

数据思维:

定义问题时,并没有预制的假设,而是使用归纳推理的方法,从部分到整体的观察描述,通过问题存在的环境观察和解释现象,从而起到预测的效果。

数据处理

大数据的处理技术具备结构化、半结构化和非结构化数据或和处理的能力,主要是针对半结构化和非结构化数据,意味不能保证输入的数据是完整的。
大数据的通用处理过程包括数据的采集、组织、分析和决策。
采集端本身有很多数据库,但是如果对这些海量数据进行有效的分析,还要将这些数据导入到一个集中地大型分布式数据库或者分布式存储集群,并在导入基础上做一些简单地清洗和预处理工作。这些工作可以通过MapReduce这一并行处理技术来提高数据的处理速度。对数据的分析是基于通用硬件的,平台兼容性好,可扩展性高,可以达到PB级别以上。

数据分析

大数据分析的是全体对象,包含了结构化、半结构化和非结构化数据,算法简单有效,更注重相关性,从海量数据中给分析出人类不易感知的关联性。

1.4 大数据的核心价值

最有价值的应用是预测性分析,是以问题为中心,以数据为基础,通过科学的建立模型,进行探索式建模和发现。

1.5 大数据安全与隐私保护

面临了很多挑战:基础设施安全,数据隐私,数据治理,被动安全机制。

你可能感兴趣的:(课本学习)