hadoop-集群

1 虚拟机3台

1.主机名 /etc/hosts 

hadoop-集群_第1张图片

 

 2. /etc/sysconfig/network

hadoop-集群_第2张图片

 

 重启,

namenode: 主机名为master 

datanode:                ....  为slave1..2..3

/opt/module  /opt/software   文件所有者为px     //sudo chown px:px  /opt/module  /opt/software  

保证opt/module/hadoop2.7.2/hadoop/logs 文件的日志为空 (第一次启动集群时)

安装  jdk  hadoop   

创建用户  并且使用户具有root权限   /etc/sudoers

 

 

ssh:

ubuntu 没有 ssh-servce 

安装 sudo apt-get install openssh-server

 查看: ps -e|grep ssh

ssh localhost  

此时会有如下提示(SSH首次登陆提示),输入 yes 。然后按提示输入密码 hadoop,这样就登陆到本机了。 

但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。

首先输入 exit 退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:

exit                           # 退出刚才的 ssh localhost

cd  ~/. ssh /                      # 若没有该目录,请先执行一次ssh localhost
ssh -keygen -t rsa               # 会有提示,都按回车就可以
cat  id_rsa.pub >> authorized_keys   # 加入授权
chmod  600 . /authorized_keys     # 修改文件权限
 
将ssh 公钥给datanode  (namenode 才能启动 datanode)

scp ~/.ssh/id_rsa.pub px@slave3:/home/px/  

scp ~/.ssh/id_rsa.pub px@slave1:/home/px/

scp ~/.ssh/id_rsa.pub px@slave2:/home/px/ 

//同时 slave1 ..2...3 也要安装openssh-server 并且给master授权

mkdir ~/.ssh       # 如果不存在该文件夹需先创建,若已存在则忽略

cat  ~ /id_rsa .pub >> ~/. ssh /authorized_keys
rm  ~ /id_rsa .pub     # 用完就可以删掉了
 
hadoop 
sudo  chown  -R hadoop:hadoop . /hadoop         # 修改文件权限 -R 递归处理

文件 slaves,将作为 DataNode 的主机名写入该文件,每行一个,默认为 localhost,所以在伪分布式配置时,节点即作为 NameNode 也作为 DataNode。分布式配置可以保留 localhost,也可以删掉,让 Master 节点仅作为 NameNode 使用。

hadoop-集群_第3张图片

(我这里配置 分布式)

2, 文件 core-site.xml 改为下面的配置:

复制代码

        
                fs.defaultFS
                hdfs://Master:9000
        
        
                hadoop.tmp.dir
                file:/usr/local/hadoop/tmp
                Abase for other temporary directories.
        
复制代码

3, 文件 hdfs-site.xml,dfs.replication 一般设为 3,但我们只有一个 Slave 节点,所以 dfs.replication 的值还是设为 1:

复制代码

        
                dfs.namenode.secondary.http-address
                Master:50090
        
        
                dfs.replication
                1
        
        
                dfs.namenode.name.dir
                file:/usr/local/hadoop/tmp/dfs/name
        
        
                dfs.datanode.data.dir
                file:/usr/local/hadoop/tmp/dfs/data
        
复制代码

4, 文件 mapred-site.xml (可能需要先重命名,默认文件名为 mapred-site.xml.template),然后配置修改如下:

复制代码

        
                mapreduce.framework.name
                yarn
        
        
                mapreduce.jobhistory.address
                Master:10020
        
        
                mapreduce.jobhistory.webapp.address
                Master:19888
        
复制代码

5, 文件 yarn-site.xml

复制代码

        
                yarn.resourcemanager.hostname
                Master
        
        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
//删除tmp 
sudo  rm  -r . /hadoop/tmp      # 删除 Hadoop 临时文件
sudo  rm  -r . /hadoop/logs/ *    # 删除日志文件
将master 中的hadoop 安装到 slave1,
 
tar  -zcf ~ /hadoop .master. tar .gz . /hadoop    # 先压缩再复制
cd  ~
scp  . /hadoop .master. tar .gz Slave1: /home/hadoop

 在 Slave1 节点上执行:注意上面最后一行的Slave1,其他节点可改为Slave2,3,4等,同样下面也要在不同的节点允许

1
2
3
sudo  rm  -r  /usr/local/hadoop     # 删掉旧的(如果存在)
sudo  tar  -zxf ~ /hadoop .master. tar .gz -C  /usr/local
sudo  chown  -R hadoop  /usr/local/hadoop

tar  -C(解压到指定目录中)

同样,如果有其他 Slave 节点,也要执行将 hadoop.master.tar.gz 传输到 Slave 节点、在 Slave 节点解压文件的操作。

首次启动需要先在 Master 节点执行 NameNode 的格式化:

 

    hdfs namenode -format       # 首次运行需要执行初始化,之后不需要

关闭防火墙

hadoop-集群_第4张图片

 启动:

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

启动hadoop时出现各类的错误,本文就“Error:JAVA_HOME is not set and could not be found ”这一错误提出解决办法。

针对这个错误,网上好多都说了java的路径设置有问题,但没有指出具体的修改方法,其实是hadoop里面hadoop-env.sh文件里面的java路径设置不对,hadoop-env.sh在hadoop/etc/hadoop目录下,具体的修改办法如下:

sudo vim hadoop/etc/hadoop/hdoop-env.sh

将语句      export JAVA_HOME=$JAVA_HOME    

修改为      export JAVA_HOME=/usr/java/jdk1.8.0_101

保存后退出。

再次输入start-dfs.sh启动hadoop,则没有报错。(每台机子都需要设置)


在master上 新建目录 /user/......../name

通过命令 jps 可以查看各个节点所启动的进程。正确的话,在 Master 节点上可以看到 NameNode、ResourceManager、SecondrryNameNode、JobHistoryServer 进程,如下图所示:

hadoop-集群_第5张图片

缺少任一进程都表示出错。另外还需要在 Master 节点上通过命令 hdfs dfsadmin -report 查看 DataNode 是否正常启动,如果 Live datanodes 不为 0 ,则说明集群启动成功。例如我这边一共有 3个 Datanodes:

 hadoop-集群_第6张图片

 

 

关闭 历史记录 sbin/mr-jobhistory-daemon.sh stop historyserver

伪分布式、分布式配置切换时的注意事项

1, 从分布式切换到伪分布式时,不要忘记修改 slaves 配置文件;
2, 在两者之间切换时,若遇到无法正常启动的情况,可以删除所涉及节点的临时文件夹,这样虽然之前的数据会被删掉,但能保证集群正确启动。所以如果集群以前能启动,但后来启动不了,特别是 DataNode 无法启动,不妨试着删除所有节点(包括 Slave 节点)上的 /usr/local/hadoop/tmp 文件夹,再重新执行一次 hdfs namenode -format,再次启动试试

你可能感兴趣的:(hadoop-集群)