Hadoop Spark 集群简便安装总结

本人实际安装经验,目的是为以后快速安装,仅供自己参考。
一、Hadoop
1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。(3)安装时自定义不要JAVA。④系统安装后,直接创建用户hadoop,密码同用户名。
2、ssh。①在master上以hadoop用户执行ssh-keygen。②ssh-copy-id -i ~/.ssh/id_rsa.pub 主机2。③同2,传到其他主机。这样,只有master能控制其他主机。
3、上传我制作的包含:hadoop,spark,scala,jdk,以及hosts文件、profile文件的压缩文件,用命令scp sparkok.tar.gz 主机2:/home/hadoop ,并 tar -zxvf到当前文件夹 。
4、设置/etc/profile。这里一下在文件最后设置许多变量,方便等下拷贝到所有的机器,之后要source /etc/profile使之生效。

export JAVA_HOME=/opt/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/hadoop2.7
#export HBASE_HOME=/home/hadoop/hbase 
#export ZOOKEEPER_HOME=/home/hadoop/zookeeper 
export SCALA_HOME=/home/hadoop/scala 
export SPARK_HOME=/home/hadoop/spark 
#export KAFKA_HOME=/home/hadoop/kafka 
#export HIVE_HOME=/home/hadoop/hive 
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

5、修改hadoop参数文件。在其中一台用户目录下解压hadoop,结果可如:hadoop2.7 。hadoop会默认许多参数,如果是单机测试,甚至都不用修改参数。但我们是集群,需要修改几个必需的。默认配置可以查找 **default.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key(网上也有默认:http://hadoop.apache.org/docs)。下面是尽量少配。
(1)core-site.xml ,2个配置

<configuration>
<property>
  <name>hadoop.tmp.dirname>
    <value>/home/hadoop/tmpvalue>
    <description>配了这个,以后hdfs-site.xml就不用配data和name文件夹了,连建立都不用description>
property>

<property>
   <name>fs.defaultFSname>
     <value>hdfs://master:9000value>
     <description>这个也应该是必须的,而且必须写主机名,连IP都不行description>
property>
configuration>

(2)hdfs-site.xml ,如果服务器大于3台就不用了

<configuration>
    <property>
      <name>dfs.replicationname>
        <value>2value>
        <description>复制几份?默认3,如果大于3台服务器,就不用了 description>
    property>
configuration>

(3)mapred-site.xml

<configuration>
 <property>
   <name>mapreduce.framework.namename>
     <value>yarnvalue>
       <description>The runtime framework for executing MapReduce jobs.
         Can be one of local, classic or yarn.默认是local,适合单机
       description>
  property>
configuration>

(4)yarn-site.xml

<configuration>
<property>
    <description>既然选择了yarn,就得填,这个就是以前的master配置了description>
        <name>yarn.resourcemanager.hostnamename>
        <value>mastervalue>
property> 
configuration>

(5)slaves。 每行一个slave主机名。
(6)hadoop-env.sh 和 yarn-env.sh 。其内容虽然看着有JAVA_HOME的配置,但好像不生效,还得再写一遍JAVA_HOME配置。
以上虽然看起来很多,但实际就是告诉他:数据的存放目录(core),MR要用yarn,yarn的master是谁,如此而已。 把以上文件存起来,以后稍加修改后,就可重复利用了。
5、启动与测试
(1)格式化HDFS:$HADOOP_HOME/bin/hdfs namenode -format
(2)启动集群: $HADOOP_HOME/sbin/start-all.sh
(3)在master和slaver的sbin下执行jps。
(4)hdfs dfs -mkdir /xxx
hdfs dfs -ls /
6、UI访问
(1)状态:netstat -nap | grep 54310
(2)http://master-ip:8088
NameNode:http://master-ip:50070
JobTracker:http://master-ip:50030

所以,安装简单来说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配 数据存放目录 / MR要用yarn 及 master是谁
我还将上面涉及到的文件打包成文件,可 下载 重复使用。
以上是Hadoop的配置。

二、SPARK 安装
1、下载scala,这个是spark的安装前提条件,解压到每台机器,可以和上面的hadoop一个用户和目录。至于profile,上面已经一次性写完了,所以这次都不用写了,好方便吧^_^
2、spark下载并解压,profile也不用重写了。需要改conf文件夹下的配置:
(1)slaves 文件。每行一个IP地址或主机名。
(2)执行 mv spark-env.sh.template spark-env.sh :JAVA_HOME仍然必须填。

export JAVA_HOME=/opt/jdk18
export SCALA_HOME=/home/spark/opt/scala-2.11.4 #这行我没写也行
export SPARK_MASTER_IP=192.168.128.131
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

3、然后将此文件复制到各个服务器上就行了。
4、启动和测试:
(1)和hadoop一样: /sbin/start-all.sh
(2)master:8080
SPARK安装就是:配scala,SPARK_MASTER_IP ,HADOOP_CONF_DIR ,slaves 。就是这么简单,当然无论哪个,都不要忘了写JAVA_HOME到配置文件。

                                      河南省公安厅:党玉龙

你可能感兴趣的:(云计算)