Hadoop的知识架构

(一).Hadoop的起源与背景知识

1,什么事大数据?两个例子,大数据的核心问题是什么?

2,概念:数据仓库(Data warehouse)

3,概念:OLTP和OLAP

4,(最重要的内容)Google的几篇论文:3篇

(1)GFS:Google File System ---->HDFS

(2)MapReduce计算模型 ---->Hadoop MapReduce

( 3 ) BigTable大表 ---->HBase是Nosql数据库

(二)实验环境

(三) .Apache Hadoop的体系结构(重要) :实现Google的思想论文

1.HDFS:Hadoop Distributed File System

(*)主从结构

(*)主节点:NameNode名称节点

(*)从节点:DataNade 数据节点

(*)SecondaryNameNode:第二名称节点

2.Yarn :是一个容器,运行MapReduce程序

(*)主从结构

(*)主节点:ResourceManager 资源管理器

(*)从节点:NodeManager 节点管理器

3.HBase:需要单独安装

(*)主从结构

(*)主节点:HMaster

(*)从节点:RegionServer

(四)Hadoop 2.X的安装与配置

Hadoop有三种安装模式

1.本地模式 一台Linux

2.伪分布模式 一台Linux

3.全分布模式 三台Linux

4.掌握免密码登陆的原理和配置

(五),Hadoop应用案例分析

1.大数据背景下,企业级系统的架构变化

2.HBase进行日志分析

3.了解:Hadoop在淘宝的应用。

(六),HDFS:Hadoop的分布式文件系统,数据存储

1,操作DHSF:(1)命令行 (2)Java API (3)Web Console

2,原理:数据上传的过程

数据下载的过程

3,HDFS的底层实现:RPC和动态代理

RPC:remote procedure call

4,高级特性

(*)回收站

(*)快照:是一种备份 snapshot

(*)配额quota:(1)名称配额 (2)空间配额

(*)安全模式:safemodo

(*)权限

(七)MapReduce:是一个计算模型,可以用Java实现

1.Demo:经典WordCount

2.重点:MapReduce处理数据的过程

3.原理:yarn执行MapReduce的过程

4.MapReduce的高级特性

(*)序列化(Serializable)

(*)排序

(*)分区

(*)合并

5.MapReduce的核心:shuffle(洗牌)

6.编程案例:

(*)排序:order By

(*)去重:distinct

(*)多表查询

(*)倒排索引

补充:Mysql数据库

(八),Hive:蜂巢 数据分析的引擎 ,翻译器 SQL--------->MapReduce

(九),Pig:猪 数据分析的引擎,翻译器 PigLatin语言 --->MapReduce

(十),HBase:NoSQL数据库

1.是基于Hadoop之上的Nosql

2.体系结构:HMaster,RegionServer

3.搭建:本地模式,伪分布模式,全分布模式

4.操作:命令行,Java Api,web console

5.过滤器;实现复杂的查询

6.HBase上的MapReduce

(十一),Sqoop:数据采集引擎,采集关系型数据库的数据

(十二),Flume:数据采集引擎,采集日志

(十三),HUE:基于web的管理工具

(十四),ZooKeeper:相当于是一个数据库实现HA(High Avaiblily高可用性)

(十五).Hadoop的集群和HA

1.HDFS的联盟(Faderation)

2.Hadoop的HA(High Avaiblity高可用性)

(十六)Redis:基于内存的Nosql数据库,提高性能

(十七)Storm:处理流式数据(实时计算)

集成Storm和Redis

Hadoop的知识架构_第1张图片

你可能感兴趣的:(Hadoop的知识架构)