hadoop | 服务器分布式安装hadoop,hbase,zookeeper,phoenix,spark | 集群启动顺序

文章目录

  • 系统与版本
  • 集群结构
  • 声明
  • 准备
    • 修改hosts和hostname
    • 关闭防火墙
    • 关闭selinux
    • 安装ntpdate同步服务器时间
    • 安装java
    • 添加hadoop用户
    • 设置免密通信
  • 安装(均使用hadoop用户)
    • 配置环境变量
    • 安装hadoop
      • 修改 core-site.xml
      • 修改 hadoop-env.sh
      • 修改hdfs-site.xml
      • 修改 mapred-site.xml
      • 修改yarn-site.xml
      • 修改workers
      • 修改start-dfs.sh和 stop-dfs.sh文件
      • start-yarn.sh文件和 stop-yarn.sh文件
    • 安装zookeeper
      • 配置zoo.cfg
      • 创建myid
    • 安装hbase
      • 修改配置hbase-env.sh
      • 修改hbase-site.xml
      • 修改regionservers
    • 安装spark
      • 修改配置文件
    • 安装pheonix
      • 复制phoenix的jar包
      • 复制hbase-site.xml
      • 复制core-site.xml hdfs-site.xml
  • 克隆服务器
  • 启动顺序
    • 格式化namenode
    • master节点启动hadoop
    • 启动zookeeper
    • master节点启动hbase
    • master节点启动spark
    • 启动phoenix

系统与版本

在vSphere ESXI服务器中安装大数据集群,系统镜像为CentOS-7-x86_64-Minimal-1908.iso

版本
CentOS-7-x86_64-Minimal-1908.iso
jdk-8u211-linux-x64
apache-phoenix-5.0.0-HBase-2.0-bin
apache-zookeeper-3.5.5-bin
hadoop-3.1.2
hbase-2.0.5
spark-2.3.3-bin-hadoop2.7

集群结构

进程
master NameNode,NodeManager,ResourceManager,journalNode,SecondaryNameNode,QuorumPeerMain,HMaster,HRegionServer
slave1 DataNode,NodeManager,QuorumPeerMain,HRegionServer
slave2 DataNode,NodeManager,QuorumPeerMain,HRegionServer

声明

借鉴下面这篇博客完成了分布式安装
大数据环境单点安装(hadoop,hbase,zookeeper,phoenix,spark)_Sword1996的博客-CSDN博客
此次安装过程是安装CentOS-7-x86_64-Minimal后,master节点安装配置,通过vSphere client克隆master服务器节点后更改各个节点配置实现的。
所以在克隆完后需要修改:

  1. /etc/hostname
  2. /etc/hosts
  3. zookeeper目录下的/data/myid
  4. spark目录下的/conf/spark-env.shSPARK_LOCAL_IP

在配置master过程中,注意加入slave1,slave2

准备

此时为root用户

修改hosts和hostname

需要注意的是,克隆出来的slave1、slave2需要更改、添加成对应内容

vim /etc/hostname
#将localhost更改为master
vim /etc/hosts
#不建议修改127.0.0.1行,需要在后面添加ip映射

关闭防火墙

minimal版本的centos没有iptables

systemctl stop firewalld.service
systemctl disable firewalld.service

关闭selinux

vim /etc/selinux/config

将SELinux status参数设定为关闭状态

SELinux status: disabled

安装ntpdate同步服务器时间

  1. 安装ntpdate
yum install ntpdate -y
  1. 测试是否正常
ntpdate cn.ntp.org.cn
  1. 设置定时任务每天自动同步
crontab -e
59 23 * * * ntpdate cn.ntp.org.cn

安装java

解压后放至:/usr/local/java/jdk1.8.0_211

vim /etc/profile

将java目录添加进环境

#java 1.8
JAVA_HOME=/usr/local/java/jdk1.8.0_211
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
source  /etc/profile

添加hadoop用户

useradd -m hadoop
passwd hadoop  #一直回车不设置密码,忽略警告
usermod -a -G hadoop hadoop   # 将hadoop用户移进hadoop用户组
cat  /etc/group    #查看用户组

设置免密通信

  1. 切换用户
su hadoop
  1. 生成rsa密钥
ssh-keygen -t rsa
  1. 将生成的rsa追加写入授权文件
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  1. 给授权文件权限
chmod 600 ~/.ssh/authorized_keys
  1. 对本机ssh测试(第一次需要密码)
ssh master

安装(均使用hadoop用户)

将下述软件解压直/home/hadoop

版本
apache-phoenix-5.0.0-HBase-2.0-bin
apache-zookeeper-3.5.5-bin
hadoop-3.1.2
hbase-2.0.5
spark-2.3.3-bin-hadoop2.7

配置环境变量

vim ~/.bashrc
# User specific aliases and functions
#java 1.8
JAVA_HOME=/usr/local/java/jdk1.8.0_211
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH

#hadoop
export HADOOP_HOME=/home/hadoop/hadoop-3.1.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

#zookeeper
export ZOOKEEPER_HOME=/home/hadoop/apache-zookeeper-3.5.5-bin
export PATH=.:$HADOOP_HOME/bin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATH

#hbase 
export HBASE_HOME=/home/hadoop/hbase-2.0.5
export PATH=$HBASE_HOME/bin:$PATH

#phoenix
export PHOENIX_HOME=/home/hadoop/apache-phoenix-5.0.0-HBase-2.0-bin
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin

#spark
export SPARK_HOME=/home/hadoop/spark-2.3.3-bin-hadoop2.7
export SPARK_CLASSPATH=$SPARK_HOME
export PATH=$PATH:$SPARK_HOME/bin

source ~/.bashrc

安装hadoop

在目录/home/hadoop/hadoop-3.1.2/etc/hadoop下:

修改 core-site.xml

<configuration>
    <!-- 指定 namenode 的通信地址 默认 8020 端口 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000/</value>
    </property>

    <!-- 指定 hadoop 运行时产生文件的存储路径 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop-3.1.2/tmp</value>
    </property>

        <!-- 安装zookeeper需要,否则不要-->
    <!-- 指定zookeeper地址,clientPort=2181 -->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>master:2181,slave1:2181,slave2:2181</value>
    </property>
</configuration>

修改 hadoop-env.sh

添加pid文件生成路径

export HADOOP_PID_DIR=/home/hadoop/hadoop-3.1.2/tmp/pid

修改hdfs-site.xml

<configuration>
    <!-- namenode 上存储 hdfs 名字空间元数据-->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/hadoop-3.1.2/namenode</value>
    </property>

    <!-- datanode 上数据块的物理存储位置-->  
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/hadoop-3.1.2/datanode</value>
    </property>

    <!-- 设置 hdfs 副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

</configuration>

修改 mapred-site.xml

<configuration>

    <!-- 指定yarn运行-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=/home/hadoop/hadoop-3.1.2</value>
    </property>

    <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=/home/hadoop/hadoop-3.1.2</value>
    </property>

    <property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=/home/hadoop/hadoop-3.1.2</value>
    </property>

</configuration>

修改yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
    <!-- 指定ResourceManager的地址 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <!-- reducer取数据的方式是mapreduce_shuffle -->  
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>	
	<!-- 安装zookeeper需要 --> 
	<!-- 指定zk集群地址 --> 
    <property> 
        <name>yarn.resourcemanager.zk-address</name> 
        <value>master:2181,slave1:2181,slave2:2181</value> 
    </property>
</configuration>

修改workers

修改为:

master
slave1
slave2

修改start-dfs.sh和 stop-dfs.sh文件

这两个文件在hadoop-3.1.2/sbin/中,分别在 start-dfs.sh 和 stop-dfs.sh中添加如下内容

HDFS_JOURNALNODE_USER=root
HDFS_ZKFC_USER=hadoop

HDFS_DATANODE_USER=hadoop
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=hadoop
HDFS_SECONDARYNAMENODE_USER=hadoop

start-yarn.sh文件和 stop-yarn.sh文件

这两个文件在 hadoop-3.1.2/sbin/ 中,分别在 start-yarn.sh 和 stop-yarn.sh 中添加如下内容

YARN_RESOURCEMANAGER_USER=hadoop
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=hadoop

安装zookeeper

配置zoo.cfg

需要将 $ZOOKEEPER_HOME/conf目录下的zoo_sample.cfg重命名为 zoo.cfg

cp $ZOOKEEPER_HOME/conf/zoo_sample.cfg $ZOOKEEPER_HOME/conf/zoo.cfg

在zoo.cf里注释dataDir并添加:

dataDir=/home/hadoop/apache-zookeeper-3.5.5-bin/data 
dataLogDir=/home/hadoop/apache-zookeeper-3.5.5-bin/logs 
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

创建myid

zookeeper目录下创建data文件夹,并生成myid在data文件夹中

mkdir data
cd data
echo “1” > myid

slave1中myid为2,slave2中myid为3,注意更改

安装hbase

修改配置hbase-env.sh

修改 hbase-2.0.5conf目录下的hbase-env.sh文件

export JAVA_HOME=/usr/local/java/jdk1.8.0_211
export HBASE_MANAGES_ZK=false

其中HBASE_MANAGES_ZK=false表示我们使用自己安装zookeeper集群而不是hbase自带的zookeeper集群

修改hbase-site.xml

修改hbase-2.0.5/conf目录下的hbase-site.xml文件

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://master:9000/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>master,slave1,slave2</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/home/hadoop/apache-zookeeper-3.5.5-bin/data</value>
    </property>
    <property>
		<name>hbase.unsafe.stream.capability.enforce</name>
		<value>false</value>
	</property>
</configuration>

修改regionservers

修改hbase-2.0.5/conf目录下的regionservers

vim regionservers

将localhost删除,修改为附节点(注意一个节点占一行)

master
slave1
slave2

安装spark

修改配置文件

在安装目录下的conf文件夹中

将spark-env.sh.template修改为spark-env.sh,并编辑

cp spark-env.sh.template spark-env.sh
vim spark-env.sh

在spark-env.sh中添加(不同的slave中SPARK_LOCAL_IP需要对应的修改):

SPARK_LOCAL_IP=master                                 #本机ip或hostname
SPARK_MASTER_IP=master                                #master节点ip或hostname
export HADOOP_CONF_DIR=/home/hadoop/hadoop-3.1.2   #hadoop的配置路径
export YARN_CONF_DIR=/home/hadoop/hadoop-3.1.2     #yarn路径配置

将slaves.template修改为slaves,并编辑

cp slaves.template slaves
vim slaves

删除原有的localhost,添加:

master
slave1
slave2

安装pheonix

复制phoenix的jar包

复制phoenix的jar包到hbase的lib目录,jar包就在phoenix目录下

cp phoenix-core-5.0.0-HBase-2.0.jar phoenix-5.0.0-HBase-2.0-server.jar /home/hadoop/hbase-2.0.5/lib/

复制hbase-site.xml

复制hbase安装目录下的conf目录下hbase-site.xml到phoenix安装目录下的bin中:

cp hbase-site.xml /home/hadoop/apache-phoenix-5.0.0-HBase-2.0-bin/bin/

复制core-site.xml hdfs-site.xml

复制 hadoop安装目录即/home/hadoop/hadoop-3.1.2/etc/hadoop目录下的core-site.xml hdfs-site.xml到phoenix安装目录下的bin中:

cp core-site.xml hdfs-site.xml /home/hadoop/apache-phoenix-5.0.0-HBase-2.0-bin/bin/

克隆服务器

vSphere Client | 克隆虚拟机_我是一块小石头-CSDN博客

所以在克隆完后需要修改:

/etc/hostname # master,slave1,slave2
/etc/hosts # ip master/ip slave1/ip slave2 之类的
zookeeper目录下的/data/myid # 1,2,3
spark目录下的/conf/spark-env.sh 的SPARK_LOCAL_IP # 改成对应master,slave1,slave2

启动顺序

具体启动后对应的进程详情请看:
Hadoop启动顺序 | jps对应进程 | hadoop | zookeeper | hbase | spark_我是一块小石头-CSDN博客

格式化namenode

启动 hadoop 之前在 master 上 format 名称节点(namenode节点,只需要第一次启动时进行)

cd $$HADOOP_HOME//bin
hdfs namenode -format

master节点启动hadoop

start-all.sh

启动zookeeper

安装了zookeeper的所有节点启动zookeeper

zkServer.sh start

master节点启动hbase

start-hbase.sh

master节点启动spark

cd $SPARK_HOME/sbin
start-all.sh

启动phoenix

sqlline.py master,slave1,slave2:2181

可能文章有疏漏,如果有人照着我的博客没法完成部署,请留言。我有时间会修改相应内容,免得误人子弟。

你可能感兴趣的:(hdfs,大数据,hadoop,java,linux,centos)