Hadoop伪分布式简明安装操作说明

Hadoop伪分布式简明安装操作说明

1)cd /usr/local/  切换到安装目录
2)mv hadoop-2.6.0-cdh5.7.0/  hadoop-2.6.0-cdh5.7.0.bak  备份掉之前的Hadoop 或执行 rm -rf hadoop-2.6.0-cdh5.7.0/ 
3)cd 切换到/root目录
4)tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz  -C /usr/local/  解压缩
 
5)执行命令  vi /etc/hostname   将主机名修改为hadoop    修改后执行hostname查看主机名,如果新主机名未生效就reboot重启一下虚拟机即可
6)执行命令  vi /etc/hosts   最后一行改成   192.168.56.10 hadoop 
7)  执行命令vi /etc/profile   文件末尾增加以下内容:
#jdk
export JAVA_HOME=/usr/local/java/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin

#hadoop
export HADOOP_HOME=/usr/local/hadoop-2.6.0-cdh5.7.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行命令  source /etc/profile   使得环境变量设置生效

8)执行命令   ssh  hadoop    输入yes并回车
9)关闭防火墙命令 systemctl disable firewalld   再执行关闭SeLinux命令 setenforce 0 

10)修改hadoop-env.sh文件
cd /usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop  切换到Hadoop配置文件所在路径
vi hadoop-env.sh  文件末尾增加以下内容:
export JAVA_HOME=/usr/local/java/jdk1.8
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop
执行命令  source hadoop-env.sh   使得环境变量设置生效

11)修改core-site.xml文件
vi core-site.xml
之间间增加配置参数:

    fs.defaultFS
        hdfs://hadoop:8020
 

   
      hadoop.tmp.dir
      /root/hdfs/tmp
   

12)修改hdfs-site.xml文件
vi hdfs-site.xml
之间间增加配置参数:
 
     dfs.replication
     1
 

13)修改slaves文件
vi slaves
删除localhost,添加本机名hadoop

14)创建HDFS存放数据的本地目录
如果目录不存在,执行mkdir -p  /root/hdfs/tmp 创建此路径,存在跳过此步骤
cd /root/hdfs/tmp/ 如果目录已经存在,切换到此路径
rm -rf /root/hdfs/tmp/*   删除/root/hdfs/tmp/下面的所有文件

15)格式化HDFS文件系统
执行格式化命令 hdfs namenode -format 
格式化成功会提示 Storage directory /root/hdfs/tmp/dfs/name has been successfully formatted.

16)启动HDFS

执行脚本start-dfs.sh启动hdfs

17)查看HDFS的Java进程
执行java进程查看命令jps,出现以下进程,说明HDFS启动成功:
[root@hadoop /]# jps
5571 SecondaryNameNode
5418 DataNode
5674 Jps
5310 NameNode


18)打开HDFS的自带Web配置页面
在win7下chorme浏览器打开http://192.168.56.10:50070/

19)执行Hadoop命令
执行hadoop fs -ls / 查看hdfs文件系统目录
此时hdfs文件系统根目录下还没有任何目录

执行hadoop fs -mkdir /input命令,在hdfs文件系统的根目录下创建一个input子目录

cd /root 切换到/root目录,ls查看该目录下有一个word.txt文件

执行hadoop fs -put word.txt /input ,把Linux系统上的一个本地文件/root/word.txt上传到HDFS的/input目录

 

======================================================================
从第20)步开始,执行资源管理器YARN的配置并启动
20)修改mapred-site.xml文件

cd /usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop  切换到Hadoop配置文件所在路径
cp mapred-site.xml.template mapred-site.xml   复制mapred-site.xml.template模板文件为一个新的配置文件mapred-site.xml

vi mapred-site.xml 

之间增加以下配置参数:

    mapreduce.framework.name
    yarn

21)修改yarn-site.xml配置文件

cd /usr/local/hadoop-2.6.0-cdh5.7.0/etc/hadoop  切换到Hadoop配置文件所在路径

vi yarn-site.xml

之间增加以下配置参数:

    yarn.nodemanager.aux-services
    mapreduce_shuffle

22)启动YARN
执行脚本start-yarn.sh  启动资源管理器YARN

23)查看YARN和HDFS的Java进程

执行java进程查看命令jps,出现以下进程,说明HDFS和YARN都已经启动成功:
[root@hadoop hadoop]# jps
3137 ResourceManager
2578 DataNode
2469 NameNode
2726 SecondaryNameNode
3447 Jps
3226 NodeManager

24)打开YARN的自带Web配置页面
在win7下chorme浏览器打开http://192.168.56.10:8088/


======================================================================

从第25)步开始,执行Hadoop自带的WordCount词频统计程序
25)上传要执行统计的文本文件
执行命令 hadoop fs -mkdir /input 在HDFS创建一个/input目录
执行命令  hadoop fs -put /usr/local/hadoop-2.6.0-cdh5.7.0/README.txt /input 上传本地Linux文件系统的一个文本文件README.txt 到HDFS文件系统的/input目录
执行命令hadoop fs -ls /input 查看已上传到HDFS的README.txt

26)执行词频统计程序wordcount

切换到MapReduce所在目录 cd /usr/local/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce

执行命令hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount  /input/README.txt /output

请注意输出目录/output不能提前存在,执行上面命令后会自动创建/output目录

27)查看词频统计程序wordcount的执行结果

先执行命令 hadoop fs -ls /output  查看HDFS的/output目录的内容,应该出现以下内容:

Found 2 items
-rw-r--r--   1 root supergroup          0 2020-09-25 23:32 /output/_SUCCESS
-rw-r--r--   1 root supergroup       1306 2020-09-25 23:32 /output/part-r-00000

wordcount运行结果会输出到文件output/part-r-00000中,执行命令:

hadoop fs -cat /output/part-r-00000  查看词频统计程序wordcount的执行结果,输出结果类似以下内容:

details    1
distribution    2
eligible    1
encryption    3
exception    1

则说明词频统计程序wordcount运行正确

 

 

你可能感兴趣的:(Hadoop伪分布式简明安装操作说明)