一、伪分布式的安装
① 上传hadoop安装包 -->上传至/soft //上传到linux中
② 解压hadoop

        tar -zxvf hadoop-2.4.1.tar.gz -C /usr/local

③ 配置hadoop
配置HADOOP_HOME

 vim /etc/profle

 #set java jdk setup
export JAVA_HOME=/usr/local/jdk1.7.0_65
export HADOOP_HOME=/usr/local/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

修改hadoop配置 cd /usr/local/hadoop-2.4.1/etc/hadoop

a. 修改hadoop-env.sh,配置JAVA_HOME

vim hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.7.0_65

b. 修改core-site.xml配置文件,该文件配置NameNode的主机名和端口号。


                
                
                                fs.defaultFS
                                hdfs://hadoop001:9000  
                
                
                
                                hadoop.tmp.dir
                                /home/hadoop/tmp
                

c. 修改hdfs-site.xml,在该文件内配置分布式文件系统的副本数量,本测试是伪分布式,所以副本数为1。replication副本


        
                dfs.replication
                1
      

d. 修改mapred-site.xml


        
                mapreduce.framework.name
                yarn
        

e. 修改yarn-site.xml文件


                
                
                                yarn.resourcemanager.hostname
                                hadoop001
                
                 
                                yarn.nodemanager.aux-services
                                mapreduce_shuffle
                    

NM上还可以扩展自己的服务,yarn提供了一个yarn.nodemanager.aux-services的配置项,通过该配置,用户可以自定义一些服务,例如Map-Reduce的shuffle功能就是采用这种方式实现的。

④ hadoop的启动

a) 格式化NameNode,只需要在第一次启动的时候格式化

    hadoop namenode -format

b) 启动hadoop

            cd /usr/local/hadoop-2.4.1/sbin
            ./start-all.sh
            或者
            ./start-hdfs.sh     启动hdfs
            ./start-yarn.sh     启动yarn

c) 查看启动效果

    jps
    5066 NameNode               名称节点
    19031 QuorumPeerMain        zookeeper进程
    5588 NodeManager            节点管理器 NM
    5287 SecondaryNameNode      辅助名称节点
    5159 DataNode               数据节点
    5491 ResourceManager        资源管理器RM

⑤ hadoop可执行文件的意义 hadoop/bin

文件名 说明

hadoop  用于执行hadoop脚本命令,可以单独执行,一切命令的核心
hadoop-deamon.sh    通过执行hadoop命令来启动/停止一个守护进程(deamon)该命令会被sbin目录下面所有以start或stop的所的命令调用来执行命令hadoop-daemon.sh本身就是通过调用hadoop命令来执行任务
例如:hadoop-deamon.sh
start.all.sh    全部启动,它会调用start-dfs.sh及start-yarn.sh
start-hdfs.sh   启动hdfs 包括 
NameNode  DataNode  SecondaryNameNode 
start-yarn.sh   启动yarn   ResourceManager NodeManager