分布式系统详解--框架(Hadoop-集群搭建)

                 分布式系统详解--框架(Hadoop-集群搭建)

       前面的文章也简单介绍了,hadoop的环境搭建分为三种,单机版,伪分布式,全分布式。这篇文章为介绍hadoop的全分布式的架构搭建。

分布式系统详解--框架(Hadoop-集群搭建)_第1张图片

一、步骤总纲

分布式系统详解--框架(Hadoop-集群搭建)_第2张图片

二、搭建规划

主机名称 IP地址 功能
MyLinux 192.168.71.233 NameNode、DataNode、resourcemanager、nodemanager
centos01 192.168.71.234 DataNode、nodemanager
centos02 192.168.71.235 DataNode、nodemanager

 

 

 

 

 

三、配置hadoop的相关配置文件

3.1 vi ./etc/hadoop/hadoop-env.sh 告诉hadoop jdk的安装目录。

分布式系统详解--框架(Hadoop-集群搭建)_第3张图片

3.2 vi ./etc/hadoop/core-site.xml 

分布式系统详解--框架(Hadoop-集群搭建)_第4张图片

里面进行配置。



fs.defaultFS
hdfs://Mylinudfs-->0

 

io.file.buffer.size
4096



hadoop.tmp.dir
/home/bigdata/tmp

3.3 vi ./etc/hadoop/hdfs-site.xml 

里面进行配置。




dfs.replication
3



dfs.block.size
134217728




dfs.namenode.name.dir
/home/hadoopdata/dfs/name



dfs.datanode.data.dir
/home/hadoopdata/dfs/data





fs.checkpoint.dir
/home/hadoopdata/checkpoint/dfs/cname




dfs.http.address
MyLinux:50070




dfs.secondary.http.address
MyLinux:50090




dfs.webhdfs.enabled
false




dfs.permissions
false


3.4 vi ./etc/hadoop/mapred-site.xml 

因为在 /etc/hadoop/  下面没有mapred-site.xml 但是有一个 mapred-site.xml.template 

先进行拷贝:

mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

里面进行配置。




mapreduce.framework.name
yarn
true




mapreduce.jobhistory.address
MyLinux:10020



mapreduce.jobhistory.webapp.address
MyLinux:19888


3.5 vi ./etc/hadoop/yarn-site.xml 

里面进行配置。





yarn.resourcemanager.hostname
MyLinux



yarn.nodemanager.aux-services
mapreduce_shuffle




yarn.resourcemanager.address
MyLinux:8032




yarn.resourcemanager.scheduler.address
MyLinux:8030




yarn.resourcemanager.source-tracker.address
MyLinux:8031




yarn.resourcemanager.admin.address
MyLinux:8033




yarn.resourcemanager.webapp.address
MyLinux:8088


3.6 vi ./etc/hadoop/slaves

MyLinux
centos01
centos02

四、分发hadoop文件到所有机子上去

4.1 删除其他两台机器的hadoop文件(原来是配置了单机安装)

rm -rf /opt/hadoop-2.7.5

4.2 执行命令复制 

scp -r ../hadoop-2.7.5/ centos01:/opt/

scp -r ../hadoop-2.7.5/ centos02:/opt/

如果出现下面的情况:则需要在/etc/hosts 的文件中添加其他主机IP地址。

分布式系统详解--框架(Hadoop-集群搭建)_第5张图片

五、格式化文件

hadoop namenode -format 成功后

查看文件

分布式系统详解--框架(Hadoop-集群搭建)_第6张图片

六、启动

6.1 启动方式

(1)全启动 start-all.sh

(2)模块启动   

start-dfs.sh

start-yarn.sh

(3)单个进程启动

hadoop-daemon.sh start/stop namenode

hadoop-daemons.sh start/stop datanode

yarn-daemon.sh start/stop namenode

yarn-daemons.sh start/stop datanode

mr-jobhistory-daemon.sh start/stop historyserver

6.2 测试模块启动

进入hadoop-2.7.5 输入 ./sbin/start-dfs.sh 要求输入多次密码

(1)进程按照规划出现

A。输入jps 查看进程分别是 服务器MyLinux、centos01、centos02 

分布式系统详解--框架(Hadoop-集群搭建)_第7张图片

B。在sbin目录下面,启动yarn命令 start-yarn.sh

分布式系统详解--框架(Hadoop-集群搭建)_第8张图片

分布式系统详解--框架(Hadoop-集群搭建)_第9张图片

分布式系统详解--框架(Hadoop-集群搭建)_第10张图片

(2)查看对应模块的web ui监控是否正常。192.168.71.233:50070

可以查看网站图示:

分布式系统详解--框架(Hadoop-集群搭建)_第11张图片

倘若出现该服务器步骤一中,进程均已开启,而在windows下访问该端口却无法访问的情况。进行下面的操作。

第一步:开启防火墙 service iptables start

第二步:关闭防火墙 service iptables stop

(3)检测上传下载文件(hdfs),跑mapreduce作业

A。从任意目录中上传文件到hdfs系统的根目录中。

hdfs dfs -put ./README.txt /

分布式系统详解--框架(Hadoop-集群搭建)_第12张图片

解决方案:关闭datanode的防火墙(所有服务器均关闭)

上传完成

命令 hdfs dfs -cat /README.txt 来查看上传的文件打开详情

命令 hdfs dfs -ls /  来查看该hdfs系统下的文件列表

B。跑一个mapreduce作业查询单词数。

yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /README.txt /out/00

分布式系统详解--框架(Hadoop-集群搭建)_第13张图片

查看命令 hdfs dfs -cat /out/part-r-00000

分布式系统详解--框架(Hadoop-集群搭建)_第14张图片

在这里记录了每一个单词的个数,hdfs集群搭建成功。

欢迎订阅公众号(JAVA和人工智能)

                                                                        获取更过免费书籍资源视频资料

                                                     分布式系统详解--框架(Hadoop-集群搭建)_第15张图片

 

知识点超级链接:

 1,分布式系统详解--基础知识(概论

 2,分布式系统详解--基础知识(线程)

 3,分布式系统详解--基础知识(通信)

 4,分布式系统详解--基础知识(CAP)

 5,分布式系统详解--基础知识(安全)

 6,分布式系统详解--基础知识(并发)

 7,分布式系统详解--架构简介(微服务)

 8,分布式系统详解--Linux(权限)

 9,分布式系统详解--框架(Hadoop-单机版搭建)

10,分布式系统详解--架构(Hadoop-克隆服务器)

11,分布式系统详解--框架(Hadoop-集群搭建)

 

你可能感兴趣的:(Hadoop)