一、Hadoop2.6.5 分布式集群搭建
1、安装Hadoop
准备安装包:
hadoop-2.6.5.tar.gz
上传到 Linux 服务器上去(我的上传目录是/home/xutao/Desktop/software)
把软件解包解压缩到当前目录下:
tar -zxvf hadoop-2.6.5.tar.gz
2.Hadoop配置
cd /home/xutao/Desktop/software/hadoop-2.6.5/etc/hadoop
(1)配置环境变量hadoop-env.sh
vim hadoop-env.sh
export JAVA_HOME=/home/xutao/Desktop/software/jdk1.8.0_73
(2)配置核心组件core-site.xml
vim core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/xutao/hadoopData/temp</value>
</property>
(3)配置文件系统hdfs-site.xml
vim hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/xutao/hadoopData/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/xutao/hadoopData/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>hadoop2:50090</value>
</property>
(4)配置计算框架 mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
(5)配置YARN系统 yarn-site.xml
vim yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>MapReduce_shuffle</value>
</property>
(6)配置slaves文件
vim slaves
hadoop1
hadoop2
hadoop3
3.分发到从节点
分别分发到从节点hadoop02和hadoop03上:
scp -r /home/xutao/Desktop/software/hadoop-2.6.5 hadoop2:$PWD
scp -r /home/xutao/Desktop/softwaren/hadoop-2.6.5 hadoop3:$PWD
4.配置Hadoop系统环境变量
(1)需要在三个节点上都进行配置,使用命令:
vim /home/xutao/.bash_profile
(2)添加Hadoop的安装目录
export HADOOP_HOME=/home/xutao/Desktop/software/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(3)让配置文件立即生效:
source /home/xutao/.bash_profile
5.查看Hadoop是否安装成功:
hadoop version
启动Hadoop集群:
1.初始化文件系统
(1)该操作需要在主节点hadoop1上执行
hdfs namenode -format
(2)查看打印信息如果出现Exception/Error,则表示出问题
2.启动HDFS集群
(1)使用命令:
start-dfs.sh
(2)结果:
使用命令:jps查看结果
a.在主节点hadoop1上启动了NameNode守护进程
b.在3个节点上都启动了DataNode守护进程
c.在配置的一个特定节点hadoop2上启动SecondaryNameNode 进程
3.启动YARN集群
(1)使用命令:
start-yarn.sh
(2)结果:
使用命令:jps查看结果
a.在主节点hadoop01上启动了ResourceManager守护进程
b.在3个节点上都启动了NodeManager守护进程
4.验证
(1)jps命令
(2)Web UI界面
查看HDFS集群信息:
web管理界面地址是 http://192.168.186.130:50070 或者 http://hadoop1:50070
查看MapReduce运行状态信息:
web管理界面地址是 http://192.168.186.130:8088 或者 http://hadoop1:8088
(3)命令验证:
a.查看集群状态
hdfs dfsadmin -report
b.检查YARN集群,使用提交MapReduce例子程序的方法进行测试
cd /home/xutao/Desktop/software/hadoop-2.6.5/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.6.5.jar pi 10 10
c.检查HDFS集群
hadoop fs -ls /
5.补充说明
(1)单步启动进程
hadoop-daemon.sh start datanode
hadoop-daemon.sh start namenode
hadoop-daemon.sh start secondarynamenode
yarn-daemon.sh start nodemanager
yarn-daemon.sh start resourcemanager
(2)windows下配置主机映射:
使用记事本打开C:\Windows\System32\drivers\etc\hosts文件,添加映射
(3)HDFS 初始化目录结构
a.在搭建 Hadoop 集群时使用如下命令初始化文件系统
hdfs namenode -format
b.NameNode 在 format 初始化的时候会形成两个标识:
clusterID:集群ID
blockpoolID:数据块池ID
以上内容均为整理的笔记,亲身经历,如有不对的地方请指出 Thank you!