Hadoop伪分布式简明安装操作说明
1)cd /usr/local/ 切换到安装目录
2)mv hadoop-2.6.0-cdh5.7.0/ hadoop-2.6.0-cdh5.7.0.bak 备份掉之前的Hadoop 或执行 rm -rf hadoop-2.6.0-cdh5.7.0/
3)cd 切换到/root目录
4)tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C /usr/local/ 解压缩
5)执行命令 vi /etc/hostname 将主机名修改为hadoop 修改后执行hostname查看主机名,如果新主机名未生效就reboot重启一下虚拟机即可
6)执行命令 vi /etc/hosts 最后一行改成 192.168.56.10 hadoop
7) 执行命令vi /etc/profile 文件末尾增加以下内容:
#jdk
export JAVA_HOME=/usr/local/java/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
#hadoop
export HADOOP_HOME=/usr/local/hadoop-2.6.0-cdh5.7.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行命令 source /etc/profile 使得环境变量设置生效
8)执行命令 ssh hadoop 输入yes并回车
9)关闭防火墙命令 systemctl disable firewalld 再执行关闭SeLinux命令 setenforce 0
10)修改hadoop-env.sh文件
cd /usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop 切换到Hadoop配置文件所在路径
vi hadoop-env.sh 文件末尾增加以下内容:
export JAVA_HOME=/usr/local/java/jdk1.8
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop
执行命令 source hadoop-env.sh 使得环境变量设置生效
11)修改core-site.xml文件
vi core-site.xml
在
12)修改hdfs-site.xml文件
vi hdfs-site.xml
在
13)修改slaves文件
vi slaves
删除localhost,添加本机名hadoop
14)创建HDFS存放数据的本地目录
如果目录不存在,执行mkdir -p /root/hdfs/tmp 创建此路径,存在跳过此步骤
cd /root/hdfs/tmp/ 如果目录已经存在,切换到此路径
rm -rf /root/hdfs/tmp/* 删除/root/hdfs/tmp/下面的所有文件
15)格式化HDFS文件系统
执行格式化命令 hdfs namenode -format
格式化成功会提示 Storage directory /root/hdfs/tmp/dfs/name has been successfully formatted.
16)启动HDFS
执行脚本start-dfs.sh启动hdfs
17)查看HDFS的Java进程
执行java进程查看命令jps,出现以下进程,说明HDFS启动成功:
[root@hadoop /]# jps
5571 SecondaryNameNode
5418 DataNode
5674 Jps
5310 NameNode
18)打开HDFS的自带Web配置页面
在win7下chorme浏览器打开http://192.168.56.10:50070/
19)执行Hadoop命令
执行hadoop fs -ls / 查看hdfs文件系统目录
此时hdfs文件系统根目录下还没有任何目录
执行hadoop fs -mkdir /input命令,在hdfs文件系统的根目录下创建一个input子目录
cd /root 切换到/root目录,ls查看该目录下有一个word.txt文件
执行hadoop fs -put word.txt /input ,把Linux系统上的一个本地文件/root/word.txt上传到HDFS的/input目录
======================================================================
从第20)步开始,执行资源管理器YARN的配置并启动
20)修改mapred-site.xml文件
cd /usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop 切换到Hadoop配置文件所在路径
cp mapred-site.xml.template mapred-site.xml 复制mapred-site.xml.template模板文件为一个新的配置文件mapred-site.xml
vi mapred-site.xml
在
21)修改yarn-site.xml配置文件
cd /usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop 切换到Hadoop配置文件所在路径
vi yarn-site.xml
在
22)启动YARN
执行脚本start-yarn.sh 启动资源管理器YARN
23)查看YARN和HDFS的Java进程
执行java进程查看命令jps,出现以下进程,说明HDFS和YARN都已经启动成功:
[root@hadoop hadoop]# jps
3137 ResourceManager
2578 DataNode
2469 NameNode
2726 SecondaryNameNode
3447 Jps
3226 NodeManager
24)打开YARN的自带Web配置页面
在win7下chorme浏览器打开http://192.168.56.10:8088/
======================================================================
从第25)步开始,执行Hadoop自带的WordCount词频统计程序
25)上传要执行统计的文本文件
执行命令 hadoop fs -mkdir /input 在HDFS创建一个/input目录
执行命令 hadoop fs -put /usr/local/hadoop-2.6.0-cdh5.7.0/README.txt /input 上传本地Linux文件系统的一个文本文件README.txt 到HDFS文件系统的/input目录
执行命令hadoop fs -ls /input 查看已上传到HDFS的README.txt
26)执行词频统计程序wordcount
切换到MapReduce所在目录 cd /usr/local/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce
执行命令hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /input/README.txt /output
请注意输出目录/output不能提前存在,执行上面命令后会自动创建/output目录
27)查看词频统计程序wordcount的执行结果
先执行命令 hadoop fs -ls /output 查看HDFS的/output目录的内容,应该出现以下内容:
Found 2 items
-rw-r--r-- 1 root supergroup 0 2020-09-25 23:32 /output/_SUCCESS
-rw-r--r-- 1 root supergroup 1306 2020-09-25 23:32 /output/part-r-00000
wordcount运行结果会输出到文件output/part-r-00000中,执行命令:
hadoop fs -cat /output/part-r-00000 查看词频统计程序wordcount的执行结果,输出结果类似以下内容:
details 1
distribution 2
eligible 1
encryption 3
exception 1
则说明词频统计程序wordcount运行正确