大数据学习之Hadoop

一、基础概念

Hadoop包含HDFS和MapReduce,HDFS实现分布式存储,MapReduce实现数据分布式计算。
HDFS:

HDFS是由Namenode和Datanode组成。Namenode负责管理文件系统的namespace和客户端对文件的访问。Datanode负责管理节点上的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。

yarn

NameNode Active
NameNode Standby
datanode
NodeManager
ResourceManager
JournalNode
QuorumPeerMain:zookeeper进程
FailoverController:NameNode故障转移

二、安装配置

  • 下载安装包解压到:/usr/local/hadoop
  • 环境变量:vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  • 编辑配置文件
  1. core-site.xml
  • 配置Service的URL地址、Hadoop集群临时目录等信息
  • 使用 fs.default.name 还是 使用 fs.defaultFS ,要首先判断是否开启了 NN 的HA (namenode 的 highavaliable),如果开启了nn ha,那么就用fs.defaultFS,在单一namenode的情况下,就用 fs.default.name


        
        
                fs.default.name
                hdfs://cluster1
        

        
        
                hadoop.tmp.dir
                /usr/local/hadoop/tempdata
        

        
        
                ha.zookeeper.quorum
                hadoop01:2181,hadoop02:2181,hadoop03:2181
        


  1. hdfs-site.xml

配置Hadoop集群的HDFS别名、通信地址、端口等信息。



  dfs.replication
  3




  dfs.namenode.name.dir
  /usr/local/hadoop/hadoopdata/namenode




  dfs.datanode.data.dir
  /usr/local/hadoop/hadoopdata/datanode




  dfs.journalnode.edits.dir
  /usr/local/hadoop/hadoopdata/journalnode

          


  dfs.nameservices
  cluster1
 

 

  dfs.ha.namenodes.cluster1
  hadoop01,hadoop02
 
    


  dfs.namenode.rpc-address.cluster1.hadoop01
  hadoop01:9000 



  dfs.namenode.rpc-address.cluster1.hadoop02
  hadoop02:9000




  dfs.namenode.http-address.cluster1.hadoop01
  hadoop01:50070



  dfs.namenode.http-address.cluster1.hadoop02
  hadoop02:50070




  dfs.namenode.shared.edits.dir
  qjournal://hadoop03:8485;hadoop04:8485;hadoop05:8485/cluster1




  dfs.client.failover.proxy.provider.cluster1
  org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider




  dfs.ha.fencing.methods
  sshfence



 dfs.ha.fencing.ssh.private-key-files
 /home/hadoop/.ssh/id_rsa


dfs.ha.automatic-failover.enabled
  true




  dfs.webhdfs.enabled
  true



  dfs.journalnode.http-address
  0.0.0.0:8480


  dfs.journalnode.rpc-address
  0.0.0.0:8480




  ha.zookeeper.quorum
  hadoop03:2181,hadoop04:2181,hadoop05:2181


                                  
  1. map-site.xml

计算框架资源管理名称、历史任务访问地址等信息。




  mapreduce.framework.name    
  yarn



  mapreduce.jobhistory.address    
  0.0.0.0:10020  



  mapreduce.jobhistory.webapp.address      
  0.0.0.0:19888      


  1. yarn-site.xml

配置yarn-site.xml,Hadoop 资源管理通过 YARN 来完成资源相关分配 作业的调度与监控及数据的共
享等。


你可能感兴趣的:(大数据学习之Hadoop)