企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现

1.基础知识

Hadoop的架构
核心,Hadoop主要有两个层次,即:加工/计算层(MapReduce)和存储层(Hadoop分布式文件系统)
除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:
Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
Hadoop YARN :这是作业调度和集群资源管理的框架
Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(例如shell实用程序)作为映射器和/或reducer创建和运行作业

HDFS遵循主从架构,它具有以下元素:

(1)名称节点 -Namenode
名称节点是包含GNU/Linux操作系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。
具有名称节点系统作为主服务器,它执行以下任务:

  • 管理文件系统命名空间。
  • 规范客户端对文件的访问。
  • 它也执行文件系统操作,如重命名,关闭和打开的文件和目录。

(2)数据节点 - Datanode
Datanode具有GNU/Linux操作系统和软件Datanode的普通硬件。对于集群中的每个节点(普通硬件/系统),有一个数据节点。

  • 这些节点管理数据存储在它们的系统。
  • 数据节点上的文件系统执行的读写操作,根据客户的请求。
  • 还根据名称节点的指令执行操作,如块的创建,删除和复制。

(3)块 -block
一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。
这些文件段被称为块。换句话说,数据的HDFS可以读取或写入的最小量被称为一个块。
缺省的块大小为64MB,但它可以增加按需要在HDFS配置来改变。

企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第1张图片
上图中展现了整个HDFS三个重要角色:NameNode、DataNode和Client
NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等
NameNode会将文件系统的Meta-data存储在内存中
这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等
DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data
同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第2张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第3张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第4张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第5张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第6张图片

2.搭建实验环境

主机信息 主机功能
server1(172.25.2.1) hadoop
真机(172.25.2.250) 测试

(1)在真机上重新创建一个快照并且导入,保证实验环境干干净净
在这里插入图片描述
(2)用真机连接server1
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第7张图片
(3)从真机上给server1发送jdk和hadoop的安装包
Hadoop是Java开发的,因此需要在服务器上安装相对应的JDK
ps:Linux默认自带JDK–openJDK–>Hadoop集群千万不要使用这个
将hadoop安装包上传到服务器
ps:实际开发中如需要其他安装包,请去官网下载
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第8张图片
到此为止,基本的实验环境已经搭建完毕

3.单机版的实现过程如下

创建一个hadoop用户
将hadoop相关安装包都放在hadoop用户家目录下
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第9张图片
将两个压缩包都进行解压,并且做软连接方便操作
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第10张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第11张图片
编辑环境变量的文件
在这里插入图片描述
写入java命令绝对路径方便命令使用
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第12张图片
使更改生效
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第13张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第14张图片
显示当前所有java进程pid的命令
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第15张图片
编辑文件,声明java
hadoop对应目录

bin hadoop最近的管理脚本和使用脚本的目录
etc Hadoop配置文件所在的目录,包core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml
include 对外提供的编程库文件(具体存在着静态和动态链接,这些文件都是C++定义,通常适用于MapReduce)
lib 包含hadoop对外提供的编程静态和动态库,与include目录中的文件一起使用
libexec 各种服务对应上的shell配置文件所在的目录
sbin hadoop管理脚本的目录,包括HDFS和YARN的各种启动服务
share hadoop各个模块编译后jar包所在目录

ps:hadoop1.x版本是没有 yarn hadoop2.x之后提供的yarn

企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第16张图片
在这里插入图片描述企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第17张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第18张图片
独立操作debug,运行了一个程序
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第19张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第20张图片
到此为止,基本的单机版搭建已经完毕,接下来实现伪分布式的搭建

4.伪分布式的实现过程如下

(1)做本机的免密,因为此时的伪分布式也是在一台节点上实现的
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第21张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第22张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第23张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第24张图片
(2)此时的workers文件里面既可以写localhost,也可以写ip地址
为了后续实验方便,在这里我写ip地址
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第25张图片
在这里插入图片描述
(3)设置slave节点为本机
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第26张图片
设置副本个数为1,因为此时只有本机一个节点开启datanode进程
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第27张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第28张图片
(4)设置master节点也为本机
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第29张图片
(6)初始化一下
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第30张图片
可以发现,初始化之后会在/tmp这个目录下面生成一些临时目录以及进程的pid文件
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第31张图片
(7)开启服务
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第32张图片
(8)此时datanode和namenode进程均开启在本节点上
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第33张图片
在这里插入图片描述
(9)查看服务端口的开启情况
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第34张图片
(10)在真机上做好解析之后进行测试
在浏览器里面可以看到图形化界面
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第35张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第36张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第37张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第38张图片
(11)查看一些主机的信息,在线还是不在线
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第39张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第40张图片
(12)建立数据目录,上传数据
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第41张图片
(14)在浏览器里面可以看到刚刚上传上去的文件
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第42张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第43张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第44张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第45张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第46张图片
在图形化界面里面没有直接删除文件的权限
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第47张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第48张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第49张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版实现和伪分布式的实现_第50张图片

你可能感兴趣的:(linux运维——企业实战)