企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现

1.基础知识

Hadoop的架构
核心,Hadoop主要有两个层次,即:加工/计算层(MapReduce)存储层(Hadoop分布式文件系统)
除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:
Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具
Hadoop YARN :这是作业调度和集群资源管理的框架
Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(例如shell实用程序)作为映射器和/或reducer创建和运行作业
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第1张图片
上图中展现了整个HDFS三个重要角色:NameNode、DataNode和Client
NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等
NameNode会将文件系统的Meta-data存储在内存中
这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等
DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data
同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第2张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第3张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第4张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第5张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第6张图片

#2 搭建实验环境

实验环境:rhel7.5

主机信息 作用
server1(172.25.8.5) hadoop
真机(172.25.8.250) 测试

#1 在真机上重新创建一个快照并且导入,保证实验环境干干净净

[root@foundation8 images]# qemu-img create  -f qcow2  -b rhel7.5-1.qcow2 hadoop1

#2 用真机连接server5
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第7张图片
#3 从真机上给server1发送jdk和hadoop的安装包
Hadoop是Java开发的,因此需要在服务器上安装相对应的JDK
ps:Linux默认自带JDK–openJDK–>Hadoop集群千万不要使用这个
将hadoop安装包上传到服务器
ps:实际开发中如需要其他安装包,请去官网下载
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第8张图片
到此为止,基本的实验环境已经搭建完毕

#3 搭建单机版实现过程:

1.查看安装包是否被发送过来
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第9张图片
2.创建一个hadoop用户
将其hadoop相关安装包都放在hadoop用户家目录下
在这里插入图片描述在这里插入图片描述
3.解压压缩包,并且做软连接方便操作
#切换用户
在这里插入图片描述
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第10张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第11张图片
4.编写环境变量
在这里插入图片描述
#5 写入java命令绝对路径方便命令使用企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第12张图片
#使更改生效

[hadooop@server5 ~]# source .bash_profile

企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第13张图片
显示当前所有java进程pid的命令


[hadoop@server5 bin]# pwd
/home/hadoop/java/bin
 [hadoop@server5 bin]# jps
 1124 Jps

编辑文件,声明java
hadoop对应目录

企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第14张图片
ps:hadoop1.x版本是没有 yarn hadoop2.x之后提供的yarn

 [hadoop@server5 bin]# cd ../../hadoop/etc/hadoop
 [hadoop@server5 hadoop]# vim hadoop-env.sh

在这里插入图片描述在这里插入图片描述在这里插入图片描述企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第15张图片在这里插入图片描述在这里插入图片描述
独立操作debug,运行了一个程序
在这里插入图片描述企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第16张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第17张图片
在这里插入图片描述
在这里插入图片描述
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第18张图片
到此为止,基本的单机版搭建已经完毕,接下来实现伪分布式的搭建

#4.搭建伪分布式的实现过程:

#1 创建一个用户和设置密码
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第19张图片

[root@server5 ~]# su - hadoop
[hadoop@server5 ~]#

#2 做本机的免密,因为此时的伪分布式也是在一台节点上实现的
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第20张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第21张图片
#3验证免密是否成功
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第22张图片
#4 此时的workers文件里面既可以写localhost,也可以写ip地址
为了后续实验方便,在这里我写ip地址
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第23张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第24张图片
#5 设置slave节点为本机
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第25张图片在这里插入图片描述
#6 设置副本个数为1,因为此时只有本机一个节点开启datanode进程
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第26张图片

[hadoop@server5 hadoop]$ vim core-site.xml
 >
 	>
 		>fs.defaultFS>
 		>http://172.25.8.5:9000>
 	>
 >

在这里插入图片描述
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第27张图片
#7 初始化
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第28张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第29张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第30张图片#8 可以发现,初始化之后会在/tmp这个目录下面生成一些临时目录以及进程的pid文件
在这里插入图片描述
#9 开启服务
在这里插入图片描述
#10 此时datanode和namenode进程均开启在本节点上
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第31张图片
#11 查看端口的开启情况
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第32张图片
#12 测试,在真机上做好解析之后进行测试,在浏览器上输入:172.25.8.5:9870
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第33张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第34张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第35张图片
#13查看一些主机的信息,在线还是不在线
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第36张图片
#14 建立数据目录,上传数据

[hadoop@server5 hadoop]$ bin/hdfs dfs -mkdir -p  /user/hadoop #创建/user/hadoop目录
[hadoop@server5 hadoop]$ bin/hdfs  dfs -put input #将input文件进行上传
[hadoop@server5 hadoop]$ bin/hdfs  dfs -ls  input
[hadoop@server5 hadoop]$ bin/hadoop  jar  share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar  wordcount input output 
[hadoop@server5 hadoop]$ bin/hdfs dfs  -cat output/*
[hadoop@server5 hadoop]$ bin/hdfs  dfs  -get  output

在这里插入图片描述企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第37张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第38张图片
#15 在浏览器里面可以看到刚刚上传上去的文件
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第39张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第40张图片
在图形化界面里面直接删除,因为没有文件的权限,无法删除
#删除配置文件,对于浏览器的查看毫无影响
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第41张图片

企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第42张图片

企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第43张图片
企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第44张图片
#15 创建上传input output
在这里插入图片描述在这里插入图片描述
#测试:企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第45张图片企业级Hadoop大数据平台实战(2)——Hadoop单机版和伪分布式的实现_第46张图片
在这里插入图片描述

你可能感兴趣的:(Linux运维进阶)