hadoop简介和配置

Hadoop包含三个模块:

  1、Hadoop Common:
            支持其他模块的工具模块
  2、Hadoop Distributed File System (HDFS):
            分布式文件系统, 提供对应用程序数据的高吞吐量访问.
            NameNode        //名称节点   --NN        放置目录
            DateNode          //数据节点   --DN        放置数据
            SecondaryNameNode    //辅助名称节点  --2NN    放置备份目录
  3、Hadoop YARN: 
            作业调度与集群资源管理的框架
  4、Hadoop MapReduce:
            基于yarn系统的对大数据集进行并行处理技术.
             ResourceManager      //资源管理器  --RM
             NodeManager             //节点管理器  --NM

配置Hadoop

  1. Standalone/local
          独立/本地模式 (默认模式)
          查看文件系统的方式: hadoop fs -ls
          没有启动任何java进程
          用于测试和开发模式
  2. Pseudodistributed mode
          伪分布模式
          配置过程:
           a. core-site.xml
               '''
                    
                             
                                 
                                  fs.defaultFS
                                 hdfs://localhost/
                            
                    
               '''
           b. hdfs-site.xml
              '''
              
              
                    
                          
                          dfs.replication
                          1
                    
              
              '''
            c. mapred-site.xml
                '''
                
                      
                             
                             mapreduce.framework.name
                             yarn
                      
                  
                '''
            d. yarn.site.xml
                '''
                
                      
                              
                              yarn.resourcemanager.hostname
                              localhost
                      
                       
                              
                              yarn.nodemanager.aux-services
                              mapreduce_shuffle
                      
                
                '''
              * e. 配置SSH
                  安全登录
                  1) 安装ssh
                              $>sudo apt-get install ssh
                  2)生成秘钥对
                              $>ssh-keygen -t  rsa -p ''  -f  ~/.ssh/id_rsa
                              $>cd ~/.ssh           //查看生成的公私秘钥        
                  3)导入公钥数据到授权库    
                              $>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    
                  4) 登录localhost
                              $>ssh localhost                    //不需要密码
                  5)格式化hdfs文件系统
                              $>hadoop namenode -format
                  6)启动所有进程
                              $>start-all.sh
                  7)查看进程
                               $>jps                 //共有五个进程 RM NM NN DN 2NN
                  8)查看文件系统
                               $>hadoop  fs  -ls
                  9)创建文件系统
                               $>hadoop fs -mkdir -p /user/ubuntu/data
                               $>hadoop fs -ls -R /
  3. Fully distributed mode
          完全分布式

你可能感兴趣的:(hadoop简介和配置)