因为比赛的限制是使用Hadoop2.7.2,估在此文章下面的也是使用Hadoop2.7.2,具体下载地址为Hadoop2.7.2
目前在我的实验室上有三台Linux主机,因为需要参加一个关于spark数据分析的比赛,所以眼见那几台服务器没有人用,我们团队就拿来配置成集群。具体打算配置如下的集群
主机名 | IP地址(内网) |
---|---|
SparkMaster | 10.21.32.106 |
SparkWorker1 | 10.21.32.109 |
SparkWorker2 | 10.21.32.112 |
具体操作在上一篇学习日记当中已经写到了,在此不再详细说。
因为我那三台电脑也是配置好了JDK了,所以在此也不详细说。
配置好Java的机子可以使用
java -version
来查看Java的版本
因为我最后的文件是放在/usr/local
下面的,所以我也直接打开/usr/local
文件夹下。直接
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
解压
tar -zxvf hadoop-2.7.2.tar.gz
删除
rm -rf hadoop-2.7.2.tar.gz
解压删除之后打开hadoop-2.7.2文件夹,在etc/hadoop/hadoop-env.sh
中配置JDK
的信息
先查看本机的jdk目录地址在哪里
echo $JAVA_HOME
vi etc/hadoop/hadoop-env.sh
将
export JAVA_HOME=${JAVA_HOME}
改为
export JAVA_HOME=/usr/java/jdk1.8.0_131
为了方便我们以后开机之后可以立刻使用到Hadoop的bin目录下的相关命令,可以把hadoop
文件夹下的bin
和sbin
目录配置到/etc/profile
文件中。
vi /etc/profile
添加
export PATH=$PATH:/usr/local/hadoop-2.7.2/bin:/usr/local/hadoop-2.7.7/sbin
按一下esc
,按着shift
+两次z
键保存
使用
source /etc/profile
使得命令配置信息生效,是否生效可以通过
hadoop version
查看
考虑是为了建立
spark
集群,所以主机命名为SparkMaster
SparkWorker1
SparkWorker2
vi /etc/hostname
修改里面的名字为SprakMaster
,按一下esc
,按着shift
+两次z
键保存。
vi /etc/hosts
配置主机名和IP地址的对应关系。
Ps:其他两台slave的主机也修改对应的SparkWorker1 SparkWorker2,如果修改完主机名字之后户籍的名字没有生效,那么重启系统便可以。三台机子的hostname与hosts均要修改
mkdir tmp hdfs hdfs/data hdfs/name
在此先修改SparkMaster的配置文件,然后修改完毕后通过
rsync
命令复制到其他节点电脑上。
vi etc/hadoop/core-site.xml
具体修改如下:
fs.defaultFS
hdfs://SparkMaster:9000
hadoop.tmp.dir
file:/usr/local/hadoop-2.7.2/tmp
io.file.buffer.size
131072
变量fs.defaultFS保存了NameNode的位置,HDFS和MapReduce组件都需要它。这就是它出现在core-site.xml文件中而不是hdfs-site.xml文件中的原因。
具体修改如下
首先我们需要的是将marpred-site.xml复制一份:
cp etc/hadoop/marpred-site.xml.template etc/hadoop/marpred-site.xml
vi etc/hadoop/marpred-site.xml.template
此处修改的是
marpred-site.xml
,不是marpred-site.xml.template
。
具体修改如下
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
SparkMaster:10020
mapreduce.jobhistory.webapp.address
SparkMaster:19888
vi etc/hadoop/hdfs-site.xml
具体修改如下
dfs.namenode.name.dir
file:/usr/local/hadoop-2.7.2/hdfs/name
dfs.datanode.data.dir
file:/usr/local/hadoop-2.7.2/hdfs/data
dfs.replication
2
dfs.namenode.secondary.http-address
SparkMaster:9001
dfs.webhdfs.enabled
true
PS:变量dfs.replication指定了每个HDFS数据块的复制次数,即HDFS存储文件的副本个数.我的实验环境只有一台Master和两台Worker(DataNode),所以修改为2。
vi etc/hadoop/yarn-site.xml
具体配置如下:
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
SparkMaster:8032
yarn.resourcemanager.scheduler.address
SparkMaster:8030
yarn.resourcemanager.resource-tracker.address
SparkMaster:8031
yarn.resourcemanager.admin.address
SparkMaster:8033
yarn.resourcemanager.webapp.address
SparkMaster:8088
将localhost
修改成为SparkWorker1
、SparkWorker2
SparkMaster
节点的`hadoop-2.7.2/etc/下面的文件通过以下方式放去其他节点rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/
rsync -av /usr/local/hadoop-2.7.2/etc/ SparkWorker1:/usr/local/hadoop-2.7.2/etc/
完成之后可以查看SparkWorker1
、SparkWorker2
下面的文件是否变了
SparkMaster
节点格式化集群的文件系统输入
hadoop namenode -format
start-all.sh
使用
jps
查看各节点的进程信息
可以看到
此时分布式的hadoop集群已经搭好了
在浏览器输入
SparkMaster_IP:50070
SparkMaster_IP:8088
看到以下界面代表Hadoop集群已经开启了
到此Hadoop的分布式集群就搭好了。这个Spark运行的基础。
参见:CentOS 6.7安装Hadoop 2.7.2
++王家林/王雁军/王家虎的《Spark 核心源码分析与开发实战》++
文章出自kwongtai'blog,转载请标明出处!