HADOOP大数据技术栈简介

一、大数据技术图谱

大数据.jpg
Hadoop

Hadoop狭义指Apacha的一款软件,广义指的是Hadoop大数据生态圈。Hadoop三大组件:HDFS、YARN、MapReduce。
Hadoop是一个生态圈,类似于spring


hadoop ecosystem

1、Hadoop发行版本

  • 开源社区版本
  • 商业发行版本
    2、Hadoop架构变迁


    Hadoop从1.0到2.0版本架构变化

    Hadoop从2.0到3.0优化的内容
HDFS

分布式文件存储系统,处在生态圈的底层与核心地位

YARN

分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop的地位。

MapReduce

分布式计算引擎;由于自身涉及到模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。

Hadoop的优点
Hadoop优点
大数据5V特征
大数据5V特征
Hadoop集群
  • Hadoop集群包括两个集群:HDFS集群、YARN集群
  • 两个集群逻辑上分离、通常物理上在一起
  • 两个集群都是标准的主从架构集群
image.png

最简单的一个Hadoop集群架构


image.png

MapReduce是一个计算框架、代码层面的组件,没有集群之说。

Hadoop环境搭建相关配置文件
image.png
NameNode format(格式化操作)
  • 首次启动HDFS时,必须对其进行格式化操作
  • format本质上是初始化工作,进行HDFS清理和准备工作,
  • 命令: hdfs namenode -format
    注意:只有首次启动HDFS时,可对其进行格式化操作,之后format回导致数据丢失,不允许这类操作

Spark计算引擎

Spark是一款比MapReduce更优秀的计算引擎,

主要功能特点:

Spark SQL:可以通过写SQL的方式应用计算引擎
Spark Streaming:流式计算,实时计算,要求低延迟的场景(监控大屏、信贷资质审核,搜索推荐等)
MLlib(machine learning):机器学习
GraphX:图处理

Reference:

Spark官网
Hadoop官网
地球人能看懂的Hadoop

你可能感兴趣的:(HADOOP大数据技术栈简介)