hadoop集群搭建

说明:环境cenots7.5  jdk8  hadoop2.7.2

集群节点说明:(此处为公网ip)

39.100.131.85   hadoop1    NameNode、DataNode、NodeManager(对应内网ip:172.26.90.185)

47.92.83.71 hadoop2    DataNode、 ResourceManager(对应内网ip:172.26.90.187)

39.100.67.111 hadoop3 DataNode、SecondaryNameNode、NodeManager(对应内网ip:172.26.90.188)

1.修改host配置文件

这里使用主机名作为互相访问方式,如果想使用ip需在hadoop的配置文件中配置使用ip连接的参数

(这里要配置ifconfig里面的ip,我的是阿里云的,一开始配置的是公网的那个ip,也就是是用来ssh连接服务器的那个,结果namenode怎么都启动不了,报错ulimit -a for user root,最后改为ifconfig查询到的ip就可以了,阿里云买的服务器会为每一个账号分配一个路由,你购买的几台服务器eth0的前三个网段是一样的,做服务配置最好都用这个ip,不要用控制台给的那个用来连接服务器的公网ip,测试服务是否可以,在浏览器中输入的地址为公网ip)

vim /etc/hosts


可以通过【ping】命令查看


(三台服务器的host都需要做相同的配置,并关闭防火墙)

2.安装jdk

下载jdk需要验证,而wget默认跳过验证所以需要在自己电脑上下载好jdk然后上传到服务器上,我的jdk是:jdk-8u202-linux-x64.tar.gz

cd /usr/local/

tar -zxvf jdk-8u202-linux-x64.tar.gz

#配置环境变量(永久生效需要vim /etc/profile  然后在最后添加下面的export信息最后source一下  )

export JAVA_HOME=/usr/local/jdk1.8.0_202

export PATH=$PATH:$JAVA_HOME/bin

#使配置的环境变量生效

source /etc/profile

#测试

java -version

3.安装hadoop

tar -zxvf hadoop-2.7.2.tar.gz -C /usr/local/

export HADOOP_HOME=/usr/local/hadoop-2.7.2/

export PATH=$PATH:$HADOOP_HOME/bin

source /etc/profile

hadoop version

4.配置配置文件

4.1配置hadoop-env.sh

是hadoop的运行环境,用来定义hadoop运行环境相关的配置信息

//文件末尾

export JAVA_HOME=/usr/local/jdk1.8.0_202

4.2配置core-site.xml

是集群的全局参数文件,用于定义系统级别的参数,如hdfs url、hadoop临时目录等

    

        fs.defaultFS

        hdfs://hadoop1:9000

             hadoop.tmp.dir

        /usr/local/hadoop-2.7.2/data/tmp

    

4.3配置 hdfs-site.xml

配置如名称节点和数据节点的存放位置,文件副本个数、文件的读取权限等

mkdir -p /home/jiabo/data/hadoop/data/

mkdir -p /home/jiabo/data/hadoop/name

    

        dfs.replication

        3

    

    

            

        dfs.namenode.secondary.http-address         hadoop3:50090

    

    

        dfs.name.dir

        /home/jiabo/data/hadoop/name/

    

    

    dfs.data.dir

    /home/jiabo/data/hadoop/data/

    

4.4配置yarn-site

集群资源管理系统参数,配置ResouorceManager,nodeManager的通信端口,web监控端口等


    

        yarn.nodemanager.aux-services 

        mapreduce_shuffle 

    

    

        yarn.resourcemanager.hostname

        hadoop2

    

    

        yarn.nodemanager.resource.memory-mb

    #当该值配置小于1024(1GB)时,NM是无法启动的

        1500

   


4.5配置mapred-env.sh

配置MapReduce参数

cp mapred-site.xml.template mapred-site.xml

    

        mapreduce.framework.name

        yarn

    

4.6配置slaves

hadoop1

hadoop2

hadoop3

5.分发文件

scp -r hadoop-2.7.2 hadoop2:/usr/local

scp -r hadoop-2.7.2 hadoop3:/usr/local

6.SSH无密登录配置

ssh-keygen(一直回车就行)

ssh-copy-id -i .ssh/id_rsa.pub hadoop2

ssh-copy-id -i .ssh/id_rsa.pub hadoop3

(在另外两台机器执行相同操作)

7.启动

7.1如果集群是第一次启动,需要格式化NameNode(格式化只进行一次!)

hadoop namenode -format

7.2在hadoop1上启动NameNode

sbin/hadoop-daemon.sh start namenode

7.3在teacher1,teacher2,teacher3上分别启动DataNode

sbin/hadoop-daemon.sh start datanode

7.4集群式启动所有节点yarn

start-yarn.sh

hadoop的节点查看(使用主机名对应的公网ip地址)

http://hadoop1:50070/

Yarn的web页面查看地址:http://hadoop2:8088/

http://39.100.67.111:50090/status.html


创建文件夹测试:



上传文件



下载已上传文件


你可能感兴趣的:(hadoop集群搭建)