Hadoop运行模式包括:本地模式(计算的数据存在Linux本地,在一台服务器上 自己测试)、伪分布式模式(和集群接轨 HDFS yarn,在一台服务器上执行)、完全分布式模式。
本地模式:(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时候也是在本地机器上运行)
伪分布式模式:伪分布式其实就只在一台机器上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。本质上就是利用一台服务器中多个java进程去模拟多个服务
完全分布式:完全分布式其实就是多台机器上分别启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上的以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。
在真实的企业环境中,服务器集群会使用到多台机器,共同配合,来构建一个完整的分布式文件系统。而在这样的分布式文件系统HDFS相关的守护进程也会分布在不同的机器上,例如:
软件 & 平台 | 备注 |
---|---|
宿主系统 | windows10 |
虚拟机软件、系统 | vmware17,centos7.5 |
虚拟机 | 主机名:node1, ip:192.168.149.111 主机名:node2 , ip:192.168.149.112 主机名:node3 , ip:192.168.149.113 |
hadoop版本 | hadoop-3.3.0-Centos7-64-with-snappy.tar.gz |
SSH远程连接工具 | xshell7 |
软件安装包上传路径 | /export/software |
软件安装路径 | /export/software/jdk 、 /export/software/hadoop |
jdk环境 | jdk-8u241-linux-x64 |
NameNode | DataNode | SecondaryNameNode | |
---|---|---|---|
hadoop1 | √ | √ | |
hadoop2 | √ | ||
hadoop3 | √ | √ |
如果没有ifconfig
yum search ifconfig
yum install net-tools.x86_64
yum -y install vim
# 三台虚拟机均操作
systemctl status firewalld # 查看防火墙状态
systemctl stop firewalld # 关闭防火墙
systemctl disable firewalld # 禁止使用防火墙
# 三台虚拟机均操作
vim/etc/sysconfig/network-scripts/ifcfg-ens32
IPADDR="192.168.149.111"
NETMASK="255.255.255.0"
GATEWAY="192.168.149.2"
DNS1="114.114.114.114"
# 三台虚拟机均操作
# 1. 修改主机名
vim /etc/hostname
node1
# 或者
hostnamectl --static set-hostname node1
# 2. 修改映射
vim /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.149.111 node1
192.168.149.112 node2
192.168.149.113 node3
# ssh免密登录(只需要配置node1至node1、node2、node3即可)
# 1. node1生成公钥私钥 (一路回车)
ssh-keygen
# 2. node1配置免密登录到node1 node2 node3
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3
sh
# 如果失败,查看/root目录下的.ssh
ls -la
# 将已有的.ssh删除,重复上述操作
# 3. 进行验证
ssh node1
ssh node2
ssh node3
# 同时配置其余两台机器
# 集群时间同步
yum -y install ntpdate
ntpdate ntp5.aliyun.com
# 1. 将jdk安装包上传到/export/software/jdk
# 2. 解压jdk安装包
tar -xvf jdk-8u241-linux-x64.tar.gz
# 3. 配置环境变量
vim /etc/profile
export JAVA_HOME=/export/software/jdk/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# 4. 重新加载环境变量文件
source /etc/profile
# 5. 查看jdk环境
java -version
# 1. 将hadoop安装包上传到/export/software/hadoop
# 2. 解压hadoop
tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
# 3 .配置环境变量
vim /etc/profile
export HADOOP_HOME=/export/software/hadoop/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
配置文件位置: /$HADOOP_HOME/etc/hadoop
fs.defaultFS
hdfs://node1:9820
hadoop.tmp.dir
/export/software/hadoop/hadoop-3.3.0/tmp
hadoop.http.staticuser.user
root
hadoop.proxyuser.root.hosts
*
hadoop.proxyuser.root.groups
*
fs.trash.interval
1440
<property>
<name>dfs.replicationname>
<value>3value>
property>
<property>
<name>dfs.namenode.secondary.http-addressname>
<value>node2:9868value>
property>
<property>
<name>dfs.namenode.http-addressname>
<value>node1:9870value>
property>
#文件最后添加
export JAVA_HOME=/export/software/jdk/jdk1.8.0_241
# Hadoop3中,需要添加如下配置,设置启动集群角色的用户是谁
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
node1
node2
node3
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
<property>
<name>mapreduce.jobhistory.addressname>
<value>node1:10020value>
property>
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>node1:19888value>
property>
<property>
<name>yarn.app.mapreduce.am.envname>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}value>
property>
<property>
<name>mapreduce.map.envname>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}value>
property>
<property>
<name>mapreduce.reduce.envname>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}value>
property>
<property>
<name>yarn.resourcemanager.hostnamename>
<value>node1value>
property>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.nodemanager.pmem-check-enabledname>
<value>falsevalue>
property>
<property>
<name>yarn.nodemanager.vmem-check-enabledname>
<value>falsevalue>
property>
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>
<property>
<name>yarn.log.server.urlname>
<value>http://node1:19888/jobhistory/logsvalue>
property>
<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604800value>
property>
(首次启动)格式化namenode
hdfs namenode -format
start-dfs.sh # 启动HDFS所有进程(NameNode、SecondaryNameNode、DataNode)
stop-dfs.sh # 停止HDFS所有进程(NameNode、SecondaryNameNode、DataNode)
hadoop-daemon.sh start namenode # 只开启NameNode
hadoop-daemon.sh start secondarynamenode # 只开启SecondaryNameNode
hadoop-daemon.sh start datanode # 只开启DataNode
hadoop-daemon.sh stop namenode # 只关闭NameNode
hadoop-daemon.sh stop secondarynamenode # 只关闭SecondaryNameNode
hadoop-daemon.sh stop datanode # 只关闭DataNode
start-all.sh # 启动所有服务
stop-all.sh # 关闭所有服务
jps
# node1
6371 NameNode
7461 Jps
7094 NodeManager
6519 DataNode
6942 ResourceManager
# node2
3617 DataNode
3938 Jps
3731 SecondaryNameNode
3815 NodeManager
# node3
3594 Jps
3355 DataNode
3471 NodeManager
Web UI页面