1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元
素或存储出现故障,也不会导致数据的丢失。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处
理速度。
4)高容错性:能够自动将失败的任务重新分配。
vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static" #修改静态ip
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="c162952f-1144-46a7-9f1d-f095cf01c0e2"
DEVICE="ens33"
ONBOOT="yes"
IPADDR=192.168.10.100 #添加ip地址
GATEWAY=192.168.10.2 #添加网关
DNS1=192.168.10.2 #域名解析器
vim /etc/hostname
hadoop100
vim /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
注:Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包,适用于 RHEL、CentOS 和 Scientific Linux。相当于是一个软件仓库,大多数 rpm 包在官方repository 中是找不到的)
yum install -y epel-release
systemctl stop firewalld
systemctl disable firewalld.service
useradd yu
passwd yu
vim /etc/sudoers
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL
yu ALL=(ALL) NOPASSWD: ALL #在此处添加yu用户配置
rpm -qa | grep -i java | xargs -n1 rpm -e
--nodeps
1.rpm -qa:查询所安装的所有 rpm 软件包
2.grep -i:忽略大小写
3.xargs -n1:表示每次只传递一个参数
4.rpm -e –nodeps:强制卸载软件
1.修改ip
vim /etc/sysconfig/network-scripts/ifcfg-ens33
#IPADDR=192.168.10.104
2.修改主机名称
vim /etc/hostname
#hadoop104
1.执行下面的命令,ifconfig出现ens33,但没有ip地址
ifconfig ens33 up
2.执行下面的命令,此时应该就出现ip了
systemctl stop NetworkManager
ifup ens33
3.重启网络
systemctl restart network.service
4.执行ifconfig检测是否ens33是否已获取到ip地址
5.最后一步:永久关闭NetworkManager,保证下次开机ens33会自启动
systemctl disable NetworkManager
1.解压jdk压缩包
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
2.配置 JDK 环境变量
创建my_env.sh文件
sudo vim /etc/profile.d/my_env.sh
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile
1.解压hadoop压缩包
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
2.配置 HADOOP环境变量
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
计算wordcount案例
hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /root/test /root/re
#!/bin/bash
#验证参数
if(($#!=1))
then
echo 请输入要分发的文件!
exit;
fi
#获取分发文件的绝对路径
dirpath=$(cd -P `dirname $1`;pwd)
filename=$(basename $1)
echo "您要分发的文件路径是:$dirpath/$filename"
user=$(whoami)
for((i=102;i<=104;i++))
do
echo ----------------------hadoop$i-----------------------
rsync -rvlt $dirpath/$filename $user@hadoop$i:$dirpath
done
#!/bin/bash
if(($#==0))
then
echo 请输入要执行的命令!
exit;
fi
echo "要执行的命令是:$*"
#执行命令
for((i=102;i<=104;i++))
do
echo ------------------hadoop$i------------------
ssh hadoop$i $*
done
(1)生成密钥
ssh-keygen -t rsa
(2) 分发密钥
ssh-copy-id hadoop101#地址
<property>
<name>fs.defaultFSname>
<value>hdfs://hadoop102:8020value>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/opt/module/hadoop-3.1.3/datavalue>
property>
<property>
<name>hadoop.http.staticuser.username>
<value>atguiguvalue>
property>
<property>
<name>dfs.namenode.http-addressname>
<value>hadoop102:9870value>
property>
<property>
<name>dfs.namenode.secondary.http-addressname>
<value>hadoop104:9868value>
property>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.resourcemanager.hostnamename>
<value>hadoop103value>
property>
<property>
<name>yarn.nodemanager.env-whitelistname>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOMEvalue>
property>
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
hadoop102
hadoop103
hadoop104
(1)如果集群是第一次启动,需要在 hadoop102 节点格式化 NameNode(注意:格式化 NameNode,会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停 止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化。)
hadoop namenode -format
start-dfs.sh
start-yarn.sh
Web 端查看 HDFS 的 NameNode
(a)浏览器中输入:http://hadoop102:9870
(b)查看 HDFS 上存储的数据信息
Web 端查看 YARN 的 ResourceManager
(a)浏览器中输入:http://hadoop103:8088
(b)查看 YARN 上运行的 Job 信息
1.停止集群
stop-dfs.sh
stop-yarn.sh
2.删除三台集群下data和logs目录
cd /opt/module/hadoop-3.1.3/data/ /opt/module/hadoop-3.1.3/logs/
3.重新格式化namenode
hadoop namenode -format
1.配置mapred-site.xml
<property>
<name>mapreduce.jobhistory.addressname>
<value>hadoop102:10020value>
property>
<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>hadoop102:19888value>
property>
2.分发配置
xsync /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml
3.在hadoop102上启动历史服务器(需要重启mapreduce)
mapred --daemon start historyserver
若果报Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster错误配置mapred-site.xml文件
<property>
<name>yarn.app.mapreduce.am.envname>
<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3value>
property>
<property>
<name>mapreduce.map.envname>
<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3value>
property>
<property>
<name>mapreduce.reduce.envname>
<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3value>
property>
注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer。
1.编辑yarn-site.xml
<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>
<property>
<name>yarn.log.server.urlname>
<value>http://hadoop102:19888/jobhistory/logsvalue>
property>
<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604800value>
property>
2.分发配置
xsync $HADOOP_HOME/etc/hadoop/yarnsite.xml
3.关闭 NodeManager 、ResourceManager 和 HistoryServer
stop-yarn.sh
mapred --daemon stop historyserver
4.启动 NodeManager 、ResourceManage 和 HistoryServer
start-yarn.sh
mapred --daemon start historyserver
5.执行 WordCount 程序
hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar
wordcount /input /output
6.查看日志
#!/bin/bash
if [ $# == 0 ]
then
echo '请输入参数!'
exit;
fi
case $1 in
"start")
echo ---------------启动hadoop集群-----------------
echo --------------- 启动hdfs ----------------
ssh hadoop102 start-dfs.sh
echo --------------- 启动yarn ----------------
ssh hadoop103 start-yarn.sh
echo ---------------启动历史服务器----------------
ssh hadoop102 mapred --daemon start historyserver
;;
"stop")
echo ---------------关闭hadoop集群-----------------
echo --------------- 关闭hdfs ----------------
ssh hadoop102 stop-dfs.sh
echo --------------- 关闭yarn ----------------
ssh hadoop103 stop-yarn.sh
echo ---------------关闭历史服务器----------------
ssh hadoop102 mapred --daemon stop historyserver
;;
*)
echo "参数输入错误"
;;
esac
(1)查看所有节点 ntpd 服务状态和开机自启动状态
sudo systemctl status ntpd
sudo systemctl start ntpd
sudo systemctl is-enabled ntpd
(2)修改 hadoop102 的 ntp.conf 配置文件
修改 1(授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间)
sudo vim /etc/ntp.conf
#修改#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap为 restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
(3)注释以下字段并添加
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
server 127.127.1.0
fudge 127.127.1.0 stratum 10
(4)修改 hadoop102 的/etc/sysconfig/ntpd 文件
SYNC_HWCLOCK=yes
(5)重新启动 ntpd 服务并设置开机启动
sudo systemctl start ntpd
sudo systemctl enable ntpd
1)防火墙没关闭、或者没有启动 YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032
2)主机名称配置错误
3)IP 地址配置错误
4)ssh 没有配置好
5)root 用户和 atguigu 两个用户启动集群不统一
6)配置文件修改不细心
7)不识别主机名称
8)DataNode 和 NameNode 进程同时只能工作一个。
同时删除data和logs目录 重启集群
9)执行命令不生效,粘贴 Word 中命令时,遇到-和长–没区分开。导致命令失效
解决办法:尽量不要粘贴 Word 中代码。
10)jps 发现进程已经没有,但是重新启动集群,提示进程已经开启。
原因是在 Linux 的根目录下/tmp 目录中存在启动的进程临时文件,将集群相关进程删
除掉,再重新启动集群。
11)jps 不生效
原因:全局变量 hadoop java 没有生效。解决办法:需要 source /etc/profile 文件。
12)8088 端口连接不上
cat /etc/hosts
注释掉如下代码
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 hadoop102
1)需求:从 1G 数据中,统计每个单词出现次数。服务器 3 台,每台配置 4G 内存,4 核CPU,4 线程。
2)需求分析:1G / 128m = 8 个 MapTask;1 个 ReduceTask;1 个 mrAppMaster
平均每个节点运行 10 个 / 3 台 ≈ 3 个任务(4 3 3)
3)修改 yarn-site.xml 配置参数如下:
<property>
<description>The class to use as the resource scheduler.description>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capaci
ty.CapacitySchedulervalue>
property>
<property>
<description>Number of threads to handle scheduler
interface.description>
<name>yarn.resourcemanager.scheduler.client.thread-countname>
<value>8value>
property>
<property>
<description>Enable auto-detection of node capabilities such as
memory and CPU.
description>
<name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
<value>falsevalue>
property>
<property>
<description>Flag to determine if logical processors(such as
hyperthreads) should be counted as cores. Only applicable on Linux
when yarn.nodemanager.resource.cpu-vcores is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true.
description>
<name>yarn.nodemanager.resource.count-logical-processors-ascoresname>
<value>falsevalue>
property>
<property>
<description>Multiplier to determine how to convert phyiscal cores to
vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
is set to -1(which implies auto-calculate vcores) and
yarn.nodemanager.resource.detect-hardware-capabilities is set to true.
The number of vcores will be calculated as number of CPUs * multiplier.
description>
<name>yarn.nodemanager.resource.pcores-vcores-multipliername>
<value>1.0value>
property>
<property>
<description>Amount of physical memory, in MB, that can be allocated
for containers. If set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically calculated(in case of Windows and Linux).
In other cases, the default is 8192MB.
description>
<name>yarn.nodemanager.resource.memory-mbname>
<value>4096value>
property>
<property>
<description>Number of vcores that can be allocated
for containers. This is used by the RM scheduler when allocating
resources for containers. This is not used to limit the number of
CPUs used by YARN containers. If it is set to -1 and
yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
automatically determined from the hardware in case of Windows and Linux.
In other cases, number of vcores is 8 by default.description>
<name>yarn.nodemanager.resource.cpu-vcoresname>
<value>4value>
property>
<property>
<description>The minimum allocation for every container request at the RM in MBs. Memory requests lower than this will be set to the value of
this property. Additionally, a node manager that is configured to have
less memory than this value will be shut down by the resource manager.
description>
<name>yarn.scheduler.minimum-allocation-mbname>
<value>1024value>
property>
<property>
<description>The maximum allocation for every container request at the
RM in MBs. Memory requests higher than this will throw an
InvalidResourceRequestException.
description>
<name>yarn.scheduler.maximum-allocation-mbname>
<value>2048value>
property>
<property>
<description>The minimum allocation for every container request at the
RM in terms of virtual CPU cores. Requests lower than this will be set to
the value of this property. Additionally, a node manager that is configured
to have fewer virtual cores than this value will be shut down by the
resource manager.
description>
<name>yarn.scheduler.minimum-allocation-vcoresname>
<value>1value>
property>
<property>
<description>The maximum allocation for every container request at the
RM in terms of virtual CPU cores. Requests higher than this will throw an
InvalidResourceRequestException.description>
<name>yarn.scheduler.maximum-allocation-vcoresname>
<value>2value>
property>
<property>
<description>Whether virtual memory limits will be enforced for
containers.description>
<name>yarn.nodemanager.vmem-check-enabledname>
<value>falsevalue>
property>
<property>
<description>Ratio between virtual memory to physical memory when
setting memory limits for containers. Container allocations are
expressed in terms of physical memory, and virtual memory usage is
allowed to exceed this allocation by this ratio.
description>
<name>yarn.nodemanager.vmem-pmem-rationame>
<value>2.1value>
property>
4)分发配置。
注意:如果集群的硬件资源不一致,要每个 NodeManager 单独配置
需求 1:default 队列占总内存的 40%,最大资源容量占总资源 60%,hive 队列占总内存的 60%,最大资源容量占总资源 80%。
需求 2:配置队列优先级
1)在 capacity-scheduler.xml 中配置如下:
(1)修改如下配置
<property>
<name>yarn.scheduler.capacity.root.queuesname>
<value>default,hivevalue>
<description>
The queues at the this level (root is the root queue).
description>
property>
<property>
<name>yarn.scheduler.capacity.root.default.capacityname>
<value>40value>
property>
<property>
<name>yarn.scheduler.capacity.root.default.maximum-capacityname>
<value>60value>
property>
(2)为新加队列添加必要属性:
<property>
<name>yarn.scheduler.capacity.root.hive.capacityname>
<value>60value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.user-limit-factorname>
<value>1value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.maximum-capacityname>
<value>80value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.statename>
<value>RUNNINGvalue>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.acl_submit_applicationsname>
<value>*value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.acl_administer_queuename>
<value>*value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.acl_application_max_priorityname>
<value>*value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.maximum-applicationlifetimename>
<value>-1value>
property>
<property>
<name>yarn.scheduler.capacity.root.hive.default-applicationlifetimename>
<value>-1value>
property>
2)分发配置文件
3)重启 Yarn 或者执行 yarn rmadmin -refreshQueues 刷新队列,就可以看到两条队列
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -D mapreduce.job.queuename=hive /input /output
容量调度器,支持任务优先级的配置,在资源紧张时,优先级高的任务将优先获取资源。默认情况,Yarn 将所有任务的优先级限制为 0,若想使用任务的优先级功能,须开放该限制。
1)修改 yarn-site.xml 文件,增加以下参数
<property>
<name>yarn.cluster.max-application-priorityname>
<value>5value>
property>
2)分发配置,并重启 Yarn
3)模拟资源紧张环境,可连续提交以下任务,直到新提交的任务申请不到资源为止。
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 5 2000000
4)再次重新提交优先级高的任务
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -D mapreduce.job.priority=5 5 2000000
5)也可以通过以下命令修改正在执行的任务的优先级。
yarn application -appID application_1611133087930_0009 -updatePriority 5
创建两个队列,分别是 test 和 atguigu(以用户所属组命名)。期望实现以下效果:若用户提交任务时指定队列,则任务提交到指定队列运行;若未指定队列,test 用户提交的任务到 root.group.test 队列运行,atguigu 提交的任务到 root.group.atguigu 队列运行(注:group 为 用户所属组)。公平调度器的配置涉及到两个文件,一个是 yarn-site.xml,另一个是公平调度器队列分配文件 fair-scheduler.xml(文件名可自定义)。
1)修改 yarn-site.xml 文件,加入以下参数
<property>
<name>yarn.resourcemanager.scheduler.classname>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairS
chedulervalue>
<description>配置使用公平调度器description>
property>
<property>
<name>yarn.scheduler.fair.allocation.filename>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/fair-scheduler.xmlvalue>
<description>指明公平调度器队列分配配置文件description>
property>
<property>
<name>yarn.scheduler.fair.preemptionname>
<value>falsevalue>
2)配置 fair-scheduler.xml
<allocations>
<queueMaxAMShareDefault>0.5queueMaxAMShareDefault>
<queueMaxResourcesDefault>4096mb,4vcoresqueueMaxResourcesDefault>
<queue name="test">
<minResources>2048mb,2vcoresminResources>
<maxResources>4096mb,4vcoresmaxResources>
<maxRunningApps>4maxRunningApps>
<maxAMShare>0.5maxAMShare>
<weight>1.0weight>
<schedulingPolicy>fairschedulingPolicy>
queue>
<queue name="atguigu" type="parent">
<minResources>2048mb,2vcoresminResources>
<maxResources>4096mb,4vcoresmaxResources>
<maxRunningApps>4maxRunningApps>
<maxAMShare>0.5maxAMShare>
<weight>1.0weight>
<schedulingPolicy>fairschedulingPolicy>
queue>
<queuePlacementPolicy>
<rule name="specified" create="false"/>
<rule name="nestedUserQueue" create="true">
<rule name="primaryGroup" create="false"/>
rule>
<rule name="reject" />
queuePlacementPolicy>
allocations>
3)分发配置并重启 Yarn
1)提交任务时指定队列,按照配置规则,任务会到指定的 root.test 队列
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi -Dmapreduce.job.queuename=root.test 1 1
2)提交任务时不指定队列,按照配置规则,任务会到 root.atguigu.atguigu 队列
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1
看代码
1)NameNode 内存计算
每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢?
128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿
2)Hadoop2.x 系列,配置 NameNode 内存
NameNode 内存默认 2000m,如果服务器内存 4G,NameNode 内存可以配置 3g。在hadoop-env.sh 文件中配置如下。
HADOOP_NAMENODE_OPTS=-Xmx3072m
3)Hadoop3.x 系列,配置 NameNode 内存
(1)hadoop-env.sh 中描述 Hadoop 的内存是动态分配的
# The maximum amount of heap to use (Java -Xmx). If no unit
# is provided, it will be converted to MB. Daemons will
# prefer any Xmx setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MAX=
# The minimum amount of heap to use (Java -Xms). If no unit
# is provided, it will be converted to MB. Daemons will
# prefer any Xms setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MIN=
HADOOP_NAMENODE_OPTS=-Xmx102400m
(2)查看 NameNode 占用内存
[atguigu@hadoop102 ~]$ jps
3088 NodeManager
2611 NameNode
3271 JobHistoryServer
2744 DataNode
3579 Jps
[atguigu@hadoop102 ~]$ jmap -heap 2611
Heap Configuration:
MaxHeapSize = 1031798784 (984.0MB)
(3)查看 DataNode 占用内存
[atguigu@hadoop102 ~]$ jmap -heap 2744
Heap Configuration:
MaxHeapSize = 1031798784 (984.0MB)
查看发现 hadoop102 上的 NameNode 和 DataNode 占用内存都是自动分配的,且相等。不是很合理。
经验参考:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_hardware_requirements.html#concept_fzz_dq4_gbb
(1)namenode最小值1G,每增加1000000个block,增加1G内存
(2)datanode最小值4G,block数,或者副本数升高,都应该调大datanode的值。一个datanode上的总数低于4000000,为4G,超过4000000,每增加1000000,增加1G。
具体修改:hadoop-env.sh
export HDFS_NAMENODE_OPTS="Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="Dhadoop.security.logger=ERROR,
RFAS -Xmx1024m"
如果出现hadoop102: ERROR: Cannot set priority of namenode process 16849错误
在hadoop-env.sh中添加
HADOOP_SHELL_EXECNAME=root
1)hdfs-site.xml
<property>
<name>dfs.namenode.handler.countname>
<value>21value>
property>
企业经验:dfs.namenode.handler.count=20 × ( ),比如集群规模(DataNode 台数)为 3 台时,此参数设置为 21。可通过简单的 python 代码计算该值,代码如下。
[atguigu@hadoop102 ~]$ sudo yum install -y python
[atguigu@hadoop102 ~]$ python
Python 2.7.5 (default, Apr 11 2018, 07:36:10)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux2
Type "help", "copyright", "credits" or "license" for more
information.
>>> import math
>>> print int(20*math.log(3))
21
>>> quit()
1)开启回收站功能参数说明
(1)默认值 fs.trash.interval = 0,0 表示禁用回收站;其他值表示设置文件的存活时间。
(2)默认值 fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为 0,则该值设置和 fs.trash.interval 的参数值相等。
(3)要求 fs.trash.checkpoint.interval <= fs.trash.interval。
2)启用回收站
修改 core-site.xml,配置垃圾回收时间为 1 分钟。
<property>
<name>fs.trash.intervalname>
<value>1value>
property>
4)查看回收站
回收站目录在 HDFS 集群中的路径:/user/atguigu/.Trash/….
5)注意:通过网页上直接删除的文件也不会走回收站。
6)通过程序删除的文件不会经过回收站,需要调用 moveToTrash()才进入回收站
Trash trash = New Trash(conf);
trash.moveToTrash(path);
7)只有在命令行利用 hadoop fs -rm 命令删除的文件才会走回收站。
hadoop fs -rm -r /user/atguigu/input
2021-07-14 16:13:42,643 INFO fs.TrashPolicyDefault: Moved:'hdfs://hadoop102:9820/user/atguigu/input' to trash at:hdfs://hadoop102:9820/user/atguigu/.Trash/Current/user/atguigu /input
8)恢复回收站数据
hadoop fs -mv /user/atguigu/.Trash/Current/user/atguigu/input
/user/atguigu/input
hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
1)NameNode 的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性
(1)在 hdfs-site.xml 文件中添加如下内容
<property>
<name>dfs.namenode.name.dirname>
<value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2value>
property>
注意:因为每台服务器节点的磁盘情况不同,所以这个配置配完之后,可以选择不分发
(2)停止集群,删除三台节点的 data 和 logs 中所有数据。
(3)格式化集群并启动。
1)DataNode 可以配置成多个目录,每个目录存储的数据不一样(数据不是副本)
在 hdfs-site.xml 文件中添加如下内容
<property>
<name>dfs.datanode.data.dirname>
<value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2value>
property>
白名单:表示在白名单的主机 IP 地址可以,用来存储数据。
企业中:配置白名单,可以尽量防止黑客恶意访问攻击。
1)在 NameNode 节点的/opt/module/hadoop-3.1.3/etc/hadoop 目录下分别创建 whitelist 和blacklist 文件
vim whitelist
hadoop102
hadoop103
(2)创建黑名单
touch blacklist #保持空的就可以 后面要用
2)在 hdfs-site.xml 配置文件中增加 dfs.hosts 配置参数
<property>
<name>dfs.hostsname>
<value>/opt/module/hadoop3.1.3/etc/hadoop/whitelistvalue>
property>
<property>
<name>dfs.hosts.excludename>
<value>/opt/module/hadoop3.1.3/etc/hadoop/blacklistvalue>
property>
3)分发配置文件 whitelist,hdfs-site.xml
4)第一次添加白名单必须重启集群,不是第一次,只需要刷新 NameNode 节点即可
5)在 web 浏览器上查看 DN,http://hadoop102:9870/dfshealth.html#tab-datanode
6)在 hadoop104 上执行上传数据数据失败
hadoop fs -put NOTICE.txt /
7)二次修改白名单,增加 hadoop104
vim whitelist
#修改为如下内容
hadoop102
hadoop103
hadoop104
8)刷新 NameNode
hdfs dfsadmin -refreshNodes
9)在 web 浏览器上查看 DN,http://hadoop102:9870/dfshealth.html#tab-datanode
(1)在 hadoop100 主机上再克隆一台 hadoop105 主机
(2)修改 IP 地址和主机名称
(3)拷贝 hadoop102 的/opt/module 目录和/etc/profile.d/my_env.sh 到 hadoop105
(4)删除 hadoop105 上 Hadoop 的历史数据,data 和 log 数据
(5)配置 hadoop102 和 hadoop103 到 hadoop105 的 ssh 无密登录
(1)直接启动 DataNode,即可关联到集群
hdfs --daemon start datanode
yarn --daemon start nodemanager
4)在白名单中增加新服役的服务器
(1)在白名单 whitelist 中增加 hadoop105,并重启集群
(2)分发
(3)刷新 NameNode
1)企业经验:
在企业开发中,如果经常在 hadoop102 和 hadoop104 上提交任务,且副本数为 2,由于数据本地性原则,就会导致 hadoop102 和 hadoop104 数据过多,hadoop103 存储的数据量小。
另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令。
2)开启数据均衡命令:
sbin/start-balancer.sh -threshold 10
对于参数 10,代表的是集群中各个节点的磁盘空间利用率相差不超过 10%,可根据实际情况进行调整。
3)停止数据均衡命令:
sbin/stop-balancer.sh
注意:由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作,所以尽量不要在 NameNode 上执行 start-balancer.sh,而是找一台比较空闲的机器。
黑名单:表示在黑名单的主机 IP 地址不可以,用来存储数据。
企业中:配置黑名单,用来退役服务器。
1)编辑/opt/module/hadoop-3.1.3/etc/hadoop 目录下的 blacklist 文件
vim blacklist
hadoop105#添加退役节点
注意:如果白名单中没有配置,需要在 hdfs-site.xml 配置文件中增加 dfs.hosts 配置参数
<property>
<name>dfs.hosts.excludename>
<value>/opt/module/hadoop3.1.3/etc/hadoop/blacklistvalue>
property>
2)分发配置文件 blacklist,hdfs-site.xml
3)第一次添加黑名单必须重启集群,不是第一次,只需要刷新 NameNode 节点即可
4)检查 Web 浏览器,退役节点的状态为 decommission in progress(退役中),说明数据节点正在复制块到其他节点
5)等待退役节点状态为 decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是 3,服役的节点小于等于 3,是不能退役成功的,需要修改副本数后才能退役
6)如果数据不均衡,可以用命令实现集群的再平衡
1)需求:
NameNode 进程挂了并且存储的数据也丢失了,如何恢复 NameNode
2)故障模拟
(1)kill -9 NameNode 进程
(2)删除 NameNode 存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/name)
3)问题解决
(1)拷贝 SecondaryNameNode 中数据到原 NameNode 存储数据目录
scp -r yu@hadoop104:/opt/module/hadoop3.1.3/data/dfs/namesecondary/* ./
(2)重新启动 NameNode
hdfs --daemon start namenode
(3)向集群上传一个文件
1)安全模式:文件系统只接受读数据请求,而不接受删除、修改等变更请求
2)进入安全模式场景
NameNode 在加载镜像文件和编辑日志期间处于安全模式;
NameNode 再接收 DataNode 注册时,处于安全模式
3)退出安全模式条件
dfs.namenode.safemode.min.datanodes:最小可用 datanode 数量,默认 0
dfs.namenode.safemode.threshold-pct:副本数达到最小要求的 block 占系统总 block 数的百分比,默认 0.999f。(只允许丢一个块)
dfs.namenode.safemode.extension:稳定时间,默认值 30000 毫秒,即 30 秒
4)基本语法
bin/hdfs dfsadmin -safemode get
bin/hdfs dfsadmin -safemode enter
bin/hdfs dfsadmin -safemode leave
bin/hdfs dfsadmin -safemode wait
5)案例 1:启动集群进入安全模式
(1)重新启动集群
(2)集群启动后,立即来到集群上删除数据,提示集群处于安全模式
6)案例 2:磁盘修复
需求:数据块损坏,进入安全模式,如何处理
( 1 ) 分 别 进 入 hadoop102 、 hadoop103 、 hadoop104 的 /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1015489500-192.168.10.102-1611909480872/current/finalized/subdir0/subdir0 目录,统一删除某 2 个块信息
xcall rm -rf blk_1073741826_1002.meta blk_1073741827_1003.meta
(2)重新启动集群
(3)观察 http://hadoop102:9870/dfshealth.html#tab-overview
(4)离开安全模式
bin/hdfs dfsadmin -safemode leave
(5)观察 http://hadoop102:9870/dfshealth.html#tab-overview
(6)将元数据删除
(7)观察 http://hadoop102:9870/dfshealth.html#tab-overview,集群已经正常
7)案例 3:
需求:模拟等待安全模式
(1)查看当前模式
hdfs dfsadmin -safemode get
(2)先进入安全模式
bin/hdfs dfsadmin -safemode enter
(3)创建并执行下面的脚本
vim safemode.sh
##脚本
#!/bin/bash
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /
##
chmod 777 safemode.sh
./safemode.sh
(4)再打开一个窗口,执行
bin/hdfs dfsadmin -safemode leave
(5)再观察上一个窗口
采用 distcp 命令实现两个 Hadoop 集群之间的递归数据复制
bin/hadoop distcp hdfs://hadoop102:8020/user/atguigu/hello.txt
hdfs://hadoop105:8020/user/atguigu/hello.txt
(1)使用 RandomWriter 来产生随机数,每个节点运行 10 个 Map 任务,每个 Map 产生大约 1G 大小的二进制随机数
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-
3.1.3.jar randomwriter random-data
(2)执行 Sort 程序
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-
3.1.3.jar sort random-data sorted-data
(3)验证数据是否真正排好序了
hadoop jar /opt/module/hadoop-
3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data