一、准备工作
虚拟机器:vmware workstation 14
Linux系统:Centos 6.4
JDK版本:jdk-8u161-linux-x64.tar.gz
Hadoop版本:hadoop-2.6.5.tar.gz
二、基本配置
1、系统安装(略),在/usr/local目录下建立 soft文件夹(存放下载的软件),Java(jdk),hadoop(hadoop文件)
# cd /usr/local
# mkdir java soft hadoop
2、设置主机名字与hosts配置,为配置SSH做准备,这里我们准备5台虚拟机,2台 namenode节点,3台 datanode节点
master 192.168.91.130
master 192.168.91.135
slave1 192.168.91.131
slave2 192.168.91.132
slave3 192.168.91.133
a)依次在5台机器上设置hostname,方便系统操作,将hostname 依次设置为master msater2 slave1 save2 slave3
# vim /etc/sysconfig/network
b)依次在每台机器上配置hosts配置文件,hosts配置文件类似于DNS的作用,当发生网络请求时首先扫描该配置文件
# vim /etc/hosts
校验是否配置成功:
注意:修改完hostname后切记要重启机器
3、同步时间:
ntpdate -u ntp.api.bz
2、JDK安装:
a)拷贝jdk文件到Java目录下,并解压
# cp jdk-8u161-linux-x64.tar.gz /usr/local/java
# tar -zxvf jdk-8u161-linux-x64.tar.gz
b)配置环境变量
将以下配置文件放在 profile文件中
export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# vim /etc/profile
立即生效
# source /etc/profile
检查是否安装成功
# java -version或 jps
3、配置SSH免密钥
配置密钥前给每个机器添加用户 hadoop,在hadoop用户下创建密钥,因为授予root权限面密钥登陆
有些不安全,毕竟不是一个人在操作,这里我们创建hadoop用户,并授予其 /usr/local 775权限
# chmod 775 /usr/local/
hadoop集群启动以后在管理过程中,namenode是通过ssh管理datanode节点的启动或停止的,所以必须设置为免密钥,这里我们在每台机器上配置公钥,同理datanode节点也可以通过ssh向namenode节点做一些操作。
原理:
当Master通过SSH连接Salve时,Salve就会生成一个随机数并用Master的公钥对随机数进行加密,并发送给Master。Master收到加密数之后再用私钥解密,并将解密数回传给Slave,Slave确认解密数无误之后就允许Master进行连接了。这就是一个公钥认证过程,其间不需要用户手工输入密码。重要过程是将客户端Master复制到Slave上。
a)配置master免密钥登陆其他节点
#ssh-keygen -t dsa -P ''
配置本地免密钥登陆
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
注意:目前还是不能完成本地登陆的,还没有得到root授权
修改ssh授权配置
# vim /etc/ssh/sshd_config
如果还不能登陆则需要 .ssh父级及hadoop 目录需要755权限
在slave1节点执行相同的操作,然后将master节点id_dsa.pub发送到slave1节点/tmp目录下,并追加到slave1 的authorized_keys中,同样将slave1中的id_dsa.pub追加到master 中,互相持有对方的公钥
#cat /tmp/id_dsa.pub>>.ssh/authorized_keys
检查是否成功
#ssh slave1
其他节点也是如此,5个节点可以彼此通过ssh免密钥访问.
三、配置hadoop
1、将下载好的hadoop2.6.5.tar.gz安装包,放在/usr/local/soft目录下,并copy倒/usr/local/hadoop目录下解压,重命名
#tar -zxvf hadoop-2.6.5.tar.gz
#mv hadoop-2.6.5 hadoop
2、在hadoop目录下建立使用的文件夹,
#mkdir -p tmp hdfs hdfs/data hdfs/name
3、配置环境变量
#vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
使其生效
#source /etc/profile
4、配置hadoop配置文件
进入$HADOOP_HOME/etc/hadoop目录,配置 hadoop-env.sh等。涉及的配置文件如下:
hadoop/etc/hadoop/hadoop-env.sh
hadoop/etc/hadoop/yarn-env.sh
hadoop/etc/hadoop/core-site.xml
hadoop/etc/hadoop/hdfs-site.xml
hadoop/etc/hadoop/mapred-site.xml
hadoop/etc/hadoop/yarn-site.xml
(1)配置hadoop-env.sh;yarn-env.sh Java环境变量
The java implementation to use. #export JAVA_HOME=${JAVA_HOME} export JAVA_HOME=/usr/java/jdk1.7.0_79
(2)配置core-site.xml配置文件
:这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表
hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中
(3)在slaves目录下配置datanode数据节点,进入/usr/local/hadoop/hadoop/etc/hadoop目录
#cd /usr/local/hadoop/hadoop/etc/hadoop
在这里只写入 slave1 slave2 slave3数据节点
(4)将配置好的hadoop 拷贝到其他节点
四 配置Zookeeper
1、将conf目录下的zoo_example.cfg 命名为 zoo.cfg
#cp zoo_example.cfg zoo.cfg
2、配置三个节点,slave1 slave2 slave3
dataDir=/usr/local/hadoop/zookeeper/data
dataLogDir=/usr/local/hadoop/zookeeper/logs
server.1=slave1:2888:3888
server.2=slave2:2888:3888
server.3=slave3:2888:3888
3、分发到slave2,slave2,slave3节点上 ,启动时三个节点都要启动
#zkServer.sh start
六 启动过程
1.启动zookeeper集群(在主机名slave1,slave2,slave3上启动)
启动:zkServer.sh start
查看状态:zkServer.sh status
2、启动journalnode(分别在master、master2、slave1上执行)
hadoop-daemon.sh start journalnode
jps
显示JouralNode + QuorumpeerMain
3、格式化namenode
hdfs namenode -format
4、格式化ZKFC
hdfs zkfc -formatZK
5、master中的Namenode节点同步到master2节点
master2中执行:
hdfs namenode -bootstrapstandby
6、启动NameNode和DataNode
# start-dfs.sh
7、启动yarn
# start-yarn.sh
8.启动ZookeeperFailoverController(master节点和master2节点)
# hadoop-daemon.sh start zkfc