Hadoop生态系统概述

Hadoop生态系统概述

更多干货

  • 分布式实战(干货)
  • spring cloud 实战(干货)
  • mybatis 实战(干货)
  • spring boot 实战(干货)
  • React 入门实战(干货)
  • 构建中小型互联网企业架构(干货)
  • python 学习持续更新
  • ElasticSearch 笔记
  • kafka storm 实战 (干货)

一、概述

Hadoop 1.0与2.0

二、Hadoop介绍

分布式存储系统  提供了高可靠性、高扩展性和高吞吐率的数据存储服务

资源管理系统YARN(Yet Another Resource Negotiator)  负责集群资源的统一管理和调度

分布式计算框架MapReduce

1、分布式计算框架

2、具有易于编程、高容错性和高扩展性等优点

1、HDFS(分布式文件系统)

基本原理

1、将文件切分成等大的数据块,存储到多台机器上

2、将数据切分、容错、负载均衡等功能透明化

3、可将HDFS看成一个容量巨大、具有高容错性的磁盘

应用场景

1、海量数据的可靠性存储

2、数据归档

  • nn name node
  • dn Data node

2、YARN(资源管理系统)

YARN是什么

1、Hadoop 2.0新增系统

2、负责集群的资源管理和调度

3、使得多种计算框架可以运行在一个集群中

YARN的特点

1、良好的扩展性、高可用性

2、对多种类型的应用程序进行统一管理和调度

3、自带了多种多用户调度器,适合共享集群环境

3、MapReduce(分布式计算框架)

源自于Google的MapReduce论文 

  • 发表于2004年12月

  • Hadoop MapReduce是Google MapReduce克隆版

MapReduce特点

  • 良好的扩展性
  • 高容错性
  • 适合PB级以上海量数据的离线处理

三、Hadoop生态系统

1、1.0时代

2、2.0时代

3、Hive(基于MR的数据仓库)

4、Pig

5、MapReduce程序

6、Hive语句

7、pig 语句

8、Mahout(数据挖掘库)

Mahout实现的算法

9、HBase(分布式数据库)

Hbase 架构 

10、Zookeeper(分布式协作服务)

Zookeeper应用


  HDFS
YARN
Storm
HBase
Flume
Dubbo(阿里巴巴)
Metaq(阿里巴巴

11、Sqoop(数据同步工具)

12、Flume(日志收集工具)

13、Oozie(作业流调度系统)

四、Hadoop版本衍化

HDP

CDH

Hadoop版本选择

你可能感兴趣的:(hadoop,【大数据】)