hadoop集群搭建

3.完全分布式
1.从main克隆3台机器,克隆完成有以下4台机器:
192.168.1.100 node0
192.168.1.101 node1
192.168.1.102 node2
192.168.1.103 node3
192.168.1.104 node4
192.168.1.105 node5

确保4台机器都做好以下工作:
1.hostname
2.staticIP
3.hosts
4.hadoop:hadoop
5.root/hadoop本机登录
6.show full path
7.jdk1.8.0_144
8.ssh localhost jps
9.xcall.sh/nodes.sh/link
10.off firewall
11.off SELINUX=disabled

2.无钥匙登录(主控->从机) (root用户和hadoop用户)
每个用户都有独立的用户文件夹,以及独立的.ssh文件夹!
所以需要无钥登录的,都要独立配置

root用户

1.在主控机设置无钥本机登录
root@master$>ssh-keygen -t rsa #一路回车

2.将公钥加入到认证文件
root@master$>cat id_rsa.pub >> authorized_keys

3.测试本机登录
root@master$>ssh localhost #第一次登录会要求输入yes

4.将主控机器的公钥,发送到从机器,并保存为认证文件
root@master$>scp -r id_rsa.pub root@node1:/soft/

5.在从机(node1,node2,node3)分别将id_rsa.pub追加到authorized_keys
cat id_rsa.pub >> authorized_keys

5.在主控机器,使用ssh分别测试(node1,node2,node3)是否可无钥登录
root@masterKaTeX parse error: Expected 'EOF', got '#' at position 15: >ssh node1 #̲第一次登录可能要求输入yes …>exit

hadoop用户同上*****************************
3.将hadoop-2.7.3.tar.gz上传解压,并配置环境变量,设置链接(每台机器)
$>tar -zxvf hadoop-2.7.3.tar.gz
$>vi /etc/profile

export HADOOP_HOME=/soft/hadoop-2.7.3
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
$>Esc wq!
$>source /etc/profile
$>hadoop

4.配置hadoop/etc/hadoop/目录配置文件
core-site.xml

fs.defaultFS hdfs://node1/ hadoop.tmp.dir /home/hadoop/tmp

hdfs-site.xml

dfs.namenode.name.dir /soft/data/hdfs/name dfs.datanode.data.dir /soft/data/hdfs/data dfs.namenode.checkpoint.dir /soft/data/hdfs/namesecondary dfs.replication 3 dfs.permissions false dfs.namenode.secondary.http-address node0:50090

mapred-site.xml

mapreduce.framework.name yarn

yarn-site.xml

yarn.resourcemanager.hostname node1 yarn.nodemanager.local-dirs /soft/data/nm-local-dir yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.resource.memory-mb 16384 yarn.nodemanager.resource.cpu-vcores 2

hadoop-env.sh
export JAVA_HOME=/soft/jdk1.8.0_144

yarn-env.sh
export JAVA_HOME=/soft/jdk1.8.0_144

slaves
node2
node3
node4
node5
5.格式化系统
$>hadoop namenode -format
6.启动和停止分布式
$>start-dfs.sh
stop-dfs.sh

$>start-yarn.sh
stop-yarn.sh
7.启动停止命令参考资料;
start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
hadoop-daemons.sh start namenode 单独启动NameNode守护进程
hadoop-daemons.sh stop namenode 单独停止NameNode守护进程
hadoop-daemons.sh start datanode 单独启动DataNode守护进程
hadoop-daemons.sh stop datanode 单独停止DataNode守护进程
hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程
hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程

这个是我个人总结的,如有问题请加QQ群:752863982
大数据我也是自学的,或许可以帮到初入的自学者。

你可能感兴趣的:(大数据学习)