一、hadoop介绍及其环境介绍
1.1 Hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。
1.2 环境说明
集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通。节点IP地址分布如下:
role | hostname | ip | release |
---|---|---|---|
master | Master.Hadoop | 1.1.1.11 | centos6.5 |
minion | Salve1.Hadoop | 1.1.1.12 | centos6.5 |
minion | Salve2.Hadoop | 1.1.1.13 | centos6.5 |
minion | Salve3.Hadoop | 1.1.1.14 | centos6.5 |
四个节点上均是CentOS6.5系统,并且有一个相同的用户hadoop。Master机器主要配置NameNode和JobTracker的角色,负责总管分布式数据和分解任务的执行;3个Salve机器配置DataNode和TaskTracker的角色,负责分布式数据存储以及任务的执行。其实应该还应该有1个Master机器,用来作为备用,以防止Master服务器宕机,还有一个备用马上启用。后续经验积累一定阶段后补上一台备用Master机器。
1.3 网络配置
下面的例子我们将以Master机器为例,即主机名为"Master.Hadoop",IP为"192.168.1.2"进行一些主机名配置的相关操作。其他的Slave机器以此为依据进行修改。
1)修改当前机器名称
修改/etc/sysconfig/network"文件修改其中"HOSTNAME"后面的值,改成我们规划的名称。
修改类似:HOSTNAME=Master.Hdoop
、HOSTNAME=Slave1.Hadoop
...
2)配置hosts文件(必须)
> vim /etc/hosts
1.1.1.11 Master.Hadoop
1.1.1.12 Slave1.Hadoop
1.1.1.13 Slave2.Hadoop
1.1.1.14 Slave3.Hadoop
1.4 安装和启动SSH协议
在各机器间配置秘钥对,主从互相访问,建议用hadoop用户进行。
all:
ssh-keygen
把/.ssh/id_rsa.pub追加到目标机器的/.ssh/authorized_keys
slave:chmod 600 ~/.ssh/authorized_keys
因为是实验,建议把iptables和selinux关闭。
sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/sysconfig/selinux
chkconfig iptables off
/etc/init.d/iptables stop
1.5 所需软件
安装salt,执行批量化安装
1)JDK软件
下载地址:https://www.reucon.com/cdn/java/
JDK版本:jdk-7u45-linux-x64.tar.gz
2)Hadoop软件
下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.6.0/
Hadoop版本:hadoop-2.6.0.tar.gz
二、hadoop 环境部署
2.1安装JDK
1)新建目录
mkdir /data/{packages,sh,scripts,logs,py,tomcat,app} -p
cd /data/packages/
for i in `ls`;do tar xf $i;done
2.2配置环境变量
编辑"/etc/profile"文件,在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"内容。
mv jdk1.7.0_45/ /data/app/
echo 'export JAVA_HOME=/data/app/jdk1.7.0_45' >>/etc/profile
echo 'export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib::$JAVA_HOME/jre/lib' >>/etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin' >>/etc/profile
source /etc/profile
java -version #查看java版本
为所有机器执行此操作
三、hadoop的安装和配置
3.1安装hadoop
mv hadoop-2.6.0 /data/app/hadoop
chown hadoop.hadoop -R /data/app/hadoop
在"hadoop"下面创建tmp文件夹,把Hadoop的安装路径添加到"/etc/profile"中,修改"/etc/profile"文件(配置java环境变量的文件),将以下语句添加到末尾,并使其有效:
echo 'export HADOOP_HOME=/data/app/hadoop' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile
source /etc/profile
mkdir /data/app/hadoop/tmp
3.2 配置hadoop
分别配置core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves
1)配置hadoop-env.sh
cd /data/app/hadoop/etc/hadoop/
echo 'export JAVA_HOME=/data/app/jdk1.7.0_45' >>hadoop-env.sh
2)配置core-site.xml文件
修改Hadoop核心配置文件core-site.xml,这里配置的是HDFS的地址和端口号。
hadoop.tmp.dir
/data/app/hadoop/tmp
Abase for other temporary directories.
fs.defaultFS
hdfs://Master.Hadoop:9000
3)配置hdfs-site.xml文件
修改Hadoop中HDFS的配置,配置的备份方式默认为3。
dfs.namenode.name.dir
file:///data/app/hadoop/dfs/name
dfs.datanode.data.dir
file:///data/app/hadoop/dfs/data
dfs.replication
2
dfs.namenode.secondary.http-address
Master.Hadoop:50090
dfs.webhdfs.enabled
true
dfs.datanode.ipc.address
0.0.0.0:50020
dfs.datanode.http.address
0.0.0.0:50075
4)配置mapred-site.xml文件
修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。
mapreduce.framework.name
yarn
true
mapreduce.jobtracker.http.address
Master.Hadoop:50030
mapreduce.jobhistory.address
Master.Hadoop:10020
mapreduce.jobhistory.webapp.address
Master.Hadoop:19888
mapred.job.tracker
http://Master.Hadoop:9001
5)配置 yarm-site.xml文件
yarn.resourcemanager.hostname
Master.Hadoop
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.address
Master.Hadoop:8032
yarn.resourcemanager.scheduler.address
Master.Hadoop:8030
yarn.resourcemanager.resource-tracker.address
Master.Hadoop:8031
yarn.resourcemanager.admin.address
Master.Hadoop:8033
yarn.resourcemanager.webapp.address
Master.Hadoop:8088
- 到此:单机的server就算是配好了,这个时候就可以启动起来的可以看看效果;
四、变身集群
4.1 配置集群
1)配置slaves
>vim etc/hadoop/slaves
Slave1.Hadoop
Slave2.Hadoop
Slave3.Hadoop
2)copy目录
把/data/app/hadoop/复制到每个salve
rsync -av -e 'ssh -p 22' --delete /data/app/hadoop/ 1.1.1.12:/data/app/hadoop/
rsync -av -e 'ssh -p 22' --delete /data/app/hadoop/ 1.1.1.13:/data/app/hadoop/
rsync -av -e 'ssh -p 22' --delete /data/app/hadoop/ 1.1.1.14:/data/app/hadoop/
4.2 启动及验证
1)格式化HDFS文件系统
在"Master.Hadoop"上使用普通用户hadoop进行操作。(备注:只需一次,下次启动不再需要格式化。)
hadoop namenode -format
或
hdfs namenode –format
2)启动hadoop
sbin/start-dfs.sh
sbin/start-yarn.sh
顺利的话,master节点上有几下3个进程:jps (查看 hadoop的进程)
7482 ResourceManager
7335 SecondaryNameNode
7159 NameNode
slave上有几下2个进程:
2296 DataNode
2398 NodeManager
同时可浏览:
http://1.1.1.11:8088/cluster/nodes
http://1.1.1.11:50070/dfshealth.html#tab-overview
- 另外也可以通过 bin/hadoop dfsadmin -report 查看hdfs的状态报告
注:hadoop namenode不能启动,9000端口没有监听,
解决:hdfs-site.xml
删除dfs和tmp下的文件,然后重新格式化hadoop namenode -format
参考1: http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html
参考2 :http://www.itnose.net/detail/6182168.html