Spark大数据学习笔记_第2篇_CDH集群环境搭建

Spark大数据学习笔记_第2篇_CDH集群环境搭建

    • Spark大数据学习笔记_第2篇_CDH集群环境搭建
      • 1. 安装hadoop包
      • 2. 修改core-site.xml
      • 3. 修改hdfs-site.xml
      • 4. 修改mapred-site.xml
      • 5. 修改yarn-site.xml
      • 6. 修改slaves文件
      • 7. 在另外两台机器上搭建hadoop
      • 8. 启动hdfs集群
      • 9. 启动yarn集群


1. 安装hadoop包

1、将hadoop-2.5.0-cdh5.3.6.tar.gz,上传到虚拟机的/usr/local目录下。下载地址
2、将hadoop包进行解压缩:

tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz

3、对hadoop目录进行重命名:

mv hadoop-2.5.0-cdh5.3.6 hadoop

4、配置hadoop相关环境变量

vi ~/.bashrc
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc

5、创建/usr/local/data目录

2. 修改core-site.xml

<property>
  <name>fs.default.namename>
  <value>hdfs://sparkproject1:9000value>
property>

注:sparkproject1为主机名

3. 修改hdfs-site.xml

<property>
  <name>dfs.name.dirname>
  <value>/usr/local/data/namenodevalue>
property>
<property>
  <name>dfs.data.dirname>
  <value>/usr/local/data/datanodevalue>
property>
<property>
  <name>dfs.tmp.dirname>
  <value>/usr/local/data/tmpvalue>
property>
<property>
  <name>dfs.replicationname>
  <value>2value>
property>

4. 修改mapred-site.xml

<property>
  <name>mapreduce.framework.namename>
  <value>yarnvalue>
property>

5. 修改yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostnamename>
  <value>sparkproject1value>
property>
<property>
  <name>yarn.nodemanager.aux-servicesname>
  <value>mapreduce_shufflevalue>
property>

6. 修改slaves文件

sparkproject2
sparkproject3

7. 在另外两台机器上搭建hadoop

1、使用如上配置在另外两台机器上搭建hadoop,可以使用scp命令将sparkproject1上面的hadoop安装包和~/.bashrc配置文件都拷贝过去。

scp -r hadoop root@sparkproject2:/usr/local

2、要记得对.bashrc文件进行source,以让它生效。

source ~/.bashrc

3、记得在sparkproject2和sparkproject3的/usr/local目录下创建data目录。

8. 启动hdfs集群

1、格式化namenode:在sparkproject1上执行以下命令,

hdfs namenode -format

2、启动hdfs集群:

start-dfs.sh

3、验证启动是否成功:jps、50070端口
sparkproject1:namenode、secondarynamenode
sparkproject2:datanode
sparkproject3:datanode
4、上传文件,试试效果

hdfs dfs -put hello.txt /hello.txt

9. 启动yarn集群

1、启动yarn集群:start-yarn.sh
2、验证启动是否成功:jps、8088端口
sparkproject1:resourcemanager、nodemanager
sparkproject2:nodemanager
sparkproject3:nodemanager

你可能感兴趣的:(Spark,Linux,CentOS,Spark,学习笔记,大数据)