大数据、Hadoop简介

1.什么叫大数据:

大数据是指得无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策能力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.大数据的5个特点

IBM提出大数据具有5V的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

目前谈论的大数据大多从应用层面上,比如某公司搜索、整理大量的用户行为信息,然后通过数据分析手段对这些信息数据进行分析而得到的对公司有利用价值的结果。

比如:头条的推荐机制就是建立在对海量用户的阅读信息的收集、分析之上。这就是大数据在现实中的具体体现。

3.Hadoop与大数据的联系:

Hadoop是一个对海量数据进行处理的分布式系统架构,可以理解为Hadoop就是一个对海量的数据进行分析的工具,和其他组件搭配使用,来完成对大量数据的收集、存储和计算。

Hadoop框架最核心设计为:HDFS 和MapReduce

HDFS为海量的数据提供了存储

MapReduce为海量的数据提供了计算

一个完整的Hadoop大数据生态系统基本包含这些组件:

大数据、Hadoop简介_第1张图片

 

HDFS:Hadoop分布式文件系统,专门存储超大数据文件,为整个Hadoop生态圈提供基础的存储服务

MapReduce:分布式离线计算框架,用来处理大量的已经存储的本地的离线数据。

Storm:分布式实时计算,主要特点是实时性,用来处理实时产生的数据

ZoopKeeper:用于Hadoop的分布式协调服务,Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。

HBase:是一个建立在HDFS之上,面向NoSQL的数据库,用于快速读/写大量数据。

Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表

Sqoop:是一个连线工具,用于关系数据库。数据仓库和Hadoop之间转移数据

Pig:它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)

参考:360图书馆的资料

你可能感兴趣的:(大数据)