Hadoop 2.x环境搭建

 

Hadoop2.X 环境搭建

准备工作

一Linux 环境

1.查看主机名,[不能数字开头.不能特殊字符]

2.查看主机映射

 

Windows 下主机映射  C:\Windows\System32\drivers\etc\hosts

 

3.查看网卡开机自动连接,静态IP

                

二,jdk

(推荐)用户只有一个(不要是root),user01

         创建两个目录

         # mkdir /opt/software /opt/modules

         /opt/software  存放*.tag.gz

         /opt/modules    放置安装文件

         # chown -R user01:user01 /opt/modules//opt/software/

 

         $ ll

         drwxr-xr-x. 3 user01 user01 4096Mar  7 07:34 modules

         drwxr-xr-x. 2 root   root  4096 Nov 22  2013 rh

         drwxr-xr-x. 2 user01 user01 4096Mar  7 07:28 software

        

         安装jdk

          $ tar -zxf jdk-7u67-linux-x64.tar.gz -C ../modules/

          

          配置环境变量

          # vim /etc/profile

          #JAVA_HOME

exportJAVA_HOME=/opt/modules/jdk1.7.0_67

exportPATH=$PATH:$JAVA_HOME/bin

        

         使配置生效

         # source /etc/profile

 

 

          卸载openJDK

          # rpm -qa | grep jdk

          # rpm -e --nodeps   XXX.rpm   //不验证依赖进行卸载

          

          Linux 防火墙

          # service iptables status   ##查看防火墙状态

          iptables: Firewall is not running.

          # service iptables stop     ##关闭防火墙

        

 

          关闭开机启动防火墙

          #  chkconfig iptables off   ##不随机启动

 

          关闭安全子系统

          # vi /etc/sysconfig/selinux

           SELINUX=disabled

三.配置Hadoop

解压安装hadoop

Tar –zxf hadoop-2.5.0.tar.gz-C  /opt/modules/

 

1. 配置hadoop的java环境支持,${HADOOP_HOME}/etc/hadoop目录下

hadoop-env.sh

mapred-env.sh

yarn-env.sh

 

2. 与hdfs相关的配置

1) 添加修改配置文件

core-site.xml

        fs.defaultFS

        hdfs://com.james:8020

   

 

        

                 hadoop.tmp.dir

                 /opt/modules/hadoop-2.5.0/data

                 

hdfs-site.xml

 

       dfs.replication

        1

   

 

2) 格式化namenode

${HADOOP_HOME}目录下:

$ bin/hdfs namenode-format

 

3) 启动hdfs守护进程

 

4) 浏览器输入 主机名:50070

5) 查看HDFS命令 ,新建HDFS 文件夹

[[email protected]]$ bin/hdfs dfs

系统常用命令

         $ bin/hdfs dfs   //可以查看所有的dfs相关的操作指令

         $ bin/hdfs dfs -ls / 

         $ bin/hdfs dfs -mkdir -p /input/test

         $ bin/hdfs dfs  -rmdir /input/test

         $ bin/hdfs dfs  -put /opt/software/jdk-7u67-linux-x64.tar.gz/input/test

可以用bin/hadoopfs 代替bin/hdfs dfs

                 

3.配置YARN  任务调度 (Mapreduce) 资源管理(resourcemanagernodemanager)

${HADOOP_HOME}/etc/hadoop目录下配置yarn-site.xml

=======yarn-site.xml=====

                 yarn.resourcemanager.hostname

                 com.james

        

       yarn.nodemanager.aux-services

       mapreduce_shuffle

    ====================================

 

复制并重名模板文件

$ cpetc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

=======mapred-site.xml=====

${HADOOP_HOME}/etc/hadoop目录下配置mapred-site.xml

 

         mapreduce.framework.name

         yarn

=====================================

 

4.启动hdfs yarn进程

$sbin/hadoop-daemon.sh start namenode

$sbin/hadoop-daemon.sh start datanode

$sbin/yarn-daemon.sh start resourcemanager

$sbin/yarn-daemon.sh start nodemanager

5.检查hdfs yarn启动状态,即查看守护进程

 

6.向yarn提交mapreducer任务

         1)计算圆周率

         $bin/yarn

jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar  pi 5 3

         2)wordcount词频统计

         a.在用户主目录创建一个2.log

         $ vi /home/taojiamin/2.log

         this is a sunny day

today is monday

this is a sunny day

today is Monday

 

         b.上传到hdfs的input目录下

         bin/hadoop fs -put/home/taojiamin/2.log /input

 

         c.提交wordcount任务

执行方式

                 浏览器输入如下地址:

点击Browse the filesystem

 

选择output

 

选择part-r-0000查看结果

 

 

 

7.配置日志聚合

=======mapred-site.xml=========

**追加到原来配置和后面

         mapreduce.jobhistory.address

        

         [hostname]:10020

 

         mapreduce.jobhistory.webapp.address

         [hostname]:19888

==============yarn-site.xml=======

         yarn.log-aggregation-enable

         true

        

         yarn.log-aggregation.retain-seconds

         86400

 

8.修改配置文件后需要停止所有进程重新启动,以便配置文件生效

         1)停止进程

$sbin/hadoop-daemon.sh stop namenode

$sbin/hadoop-daemon.sh stop datanode

$sbin/yarn-daemon.sh stop resourcemanager

$sbin/yarn-daemon.sh stop nodemanager

        

         2)启动进程

$sbin/hadoop-daemon.sh start namenode

$sbin/hadoop-daemon.sh start datanode

$sbin/yarn-daemon.sh start resourcemanager

$sbin/yarn-daemon.sh start nodemanager

 

         3)启动历史

启动历史服务

sbin/mr-jobhistory-daemon.shstart historyserver

 

         4)查看守护进程

28904ResourceManager

28724NameNode

28808DataNode

29152NodeManager

29304JobHistoryServer

30561 Jps

 

你可能感兴趣的:(Hadoop 2.x环境搭建)