Hadoop集群的搭建

  • hdfs集群:负责文件读写/namenode、datanode
  • yarn集群:负责为mapreduce分配运算硬件资源/resource manager

  • 环境的配置(mini1.mini2.mini3.mini4)
    • 添加hadoop用户
useradd hadoop
passwd hadoop
  • 配置sudoers
vi /etc/sudoers
yyp (复制粘贴一行)
scp /etc/sudoers mini2:/etc/

uri:统一资源定位符
hdfs://mini1:9000(协议,namenode)
jdbc:mysql://localhost:3306

  • sftp上传编译好的hadoop,并配置文件
    cd /home/hadoop/apps/hadoop-2.6.4/etc/hadoop
  1. hadoop-env.sh
    配置$JAVA_HOME
  2. core-site.xml


fs.defaultFS
hdfs://mini1:9000
   (指定文件系统用hdfs,namenode:mini1,端口9000)

hadoop.tmp.dir
/home/hadoop/hdpdata
    (集群上的机器的进程工作的数据目录)

  1. hdfs-site.xml


dfs.replication
2


  1. mapred-site.xml.template


mapreduce.framwork.name
yarn

(mapreduce程序提交完后交给yarn)

mv mapred-site.xml.template mapred-site.xml

  1. yarn-site.xml


yarn.resourcemanager.hostname
mini1


yarn.nodemanager.aux-services
mapreduce_shuffle


  • 拷贝到集群中其他机器中:
    scp -r apps mini2/3/4:/home/hadoop
  • hadoop环境变量:
pwd
sudo vi /etc/profile
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

再scp到其他mini2,3,4

sudo scp /etc/profile mini4:/etc/
source /etc/profile
  • 格式化hdfs
    hadoop namenode -format

    Hadoop集群的搭建_第1张图片
    格式化后都有啥

    fsimage:文件系统元信息的镜像

  • 启动hadoop

hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
jps(查看java进程)

http://mini:50070(jetty) 查看节点状态

  • 最好的方式时写成一个脚本:XX
    • 在/etc中本身就有startall的脚本, 其他的slaves等等都是自启动脚本的配置文件。
      先配置文件slaves
start-dfs.sh
    stop-dfs.sh
start-yarn.sh
    stop-yarn.sh
  • 集群中各机器的ssh免密码登陆配置
ssh-keygen
ssh-copy-id 其他机器主机名

你可能感兴趣的:(Hadoop集群的搭建)