HADOOP理解:HDFS、YARN、MapReduce、Flume

HADOOP理解:HDFS、YARN、MapReduce、Flume

一、简介

1.HDFS:解决海量数据的存储
2.YARN:资源调度系统(编程模型MAPR、Spark、Storm、MPI)
3.MapReduce:分布式数据计算
4.Flume:数据采集工具

二、Hadoop安装:

  1. 准备linux环境:修改主机名、修改IP地址、修改主机名和IP地址的映射关系、关闭防火墙并设置防火墙开机不启动
  2. 安装JDK、配置JAVA环境变量、配置ssh免密登录(ssh-keygen -t rsa)
  3. 安装Hadoop
    (1)设置环境变量
    (2)修改配置文件:

① /etc/ hadoop/hadoop-env.sh
② /etc/hadoop/core-site.xml
③ /etc/hadoop/hdfs-site.xml
④ /etc/hadoop/yarn-site.xml
⑤ /etc/hadoop/mapred-site.xml
⑥ 格式化HDFS

(3)启动hadoop集群:(start -dfs.sh、start -yarn.sh、)
(4)启动结束后使用jps命令列出守护进程验证

三、分布式文件系统

1.分布式文件系统介绍
(1)指文件系统管理的物理存储资源(即磁盘)通过计算机网络与节点相连,由很多台服务器联合起来实现其功能,集群中的服务器有各自的角色,可以将文件分布式存放在多台服务器上
(2)特点:可扩展(添加磁盘、拓展机器数量)、容错(数据备份)、高可用(多台主服务器,即NameNode)、高吞吐(数据存储速度快)
(3)实现
![Alt]HADOOP理解:HDFS、YARN、MapReduce、Flume_第1张图片
2.HDFS Shell(命令行)的使用
(1)Start -dfs.sh 启动HDFS

① hdfs dfs -ls:查看当前文件夹(目录)
② hdfs dfs -put:上传
③ hdfs dfs -get:下载
④ hdfs dfs -getmerge:下载多个文件并合并成一个文件
⑤ hdfs dfs -rm:删除
⑥ hdfs dfs -mkdir:创建
⑦ hdfs dfs -help:帮助文档
⑧ hdfs dfs -chmod:改变文件权限
⑨ hdfs dfs -count:统计某个目录下有几个文件夹的数目
⑩ hdfs dfs -touchz:创建一个空文件

3.HDFS的体系结构和基本概念
(1)HDFS:建立在普通文件系统之上的分布式文件系统
(2)NameNode(主管、管理者):整个文件系统的管理节点、维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表、配置副本策略、处理客户端读/写请求(即接受用户的操作请求)
HADOOP理解:HDFS、YARN、MapReduce、Flume_第2张图片
(3)DataNode(执行者):负责数据存储,执行数据块的读/写操作

① 提供真实文件数据的存储服务
② 文件块(block):最基本的存储单位,默认Block大小是128MB,以一个256MB的文件为例,共有268/128=2个Block
③ HDFS中,如果一个文件小于一个数据块的大小,那么实际占用的存储空间为文件实际的大小
④ 多副本,默认是三份

(4)SecondaryNameNode(秘书):辅助NameNode分担工作量、管理元数据,防止元数据丢失

① 高可用的一个解决方案
② 执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存(磁盘),并将其推送到NameNode,替换旧的fsimage。
③ 默认安装在NameNode节点上
④ NameNode和SNN:
HADOOP理解:HDFS、YARN、MapReduce、Flume_第3张图片
(5)实现:
HADOOP理解:HDFS、YARN、MapReduce、Flume_第4张图片

4.HDFS的JAVA编程API
(1) 与HDFS建立连接
HADOOP理解:HDFS、YARN、MapReduce、Flume_第5张图片
(2) 上传文件
HADOOP理解:HDFS、YARN、MapReduce、Flume_第6张图片
(3) 下载文件
HADOOP理解:HDFS、YARN、MapReduce、Flume_第7张图片
(4) 删除文件
HADOOP理解:HDFS、YARN、MapReduce、Flume_第8张图片
(5) 创建文件夹
在这里插入图片描述
5.Hadoop的RPC通信机制
(1)什么是RPC:远程过程调用协议

你可能感兴趣的:(Hadoop,Hadoop,HDFS)