HaDoop2.6下安装并配置Spark1.6.3

Spark是Hadoop MapReduce的通用并行框架,不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法;

1.下载安装Scala

1.1 到Scala官网下载想要的版本:

HaDoop2.6下安装并配置Spark1.6.3_第1张图片
HaDoop2.6下安装并配置Spark1.6.3_第2张图片

1.2 下载后上传到安装目录下
使用:tar -zxvf scala-2.12.0.tgz
解压后的文件为:scala-2.12.0

1.3 添加环境变量
vi /etc/profile
export SCALA_HOME=/opt/scala-2.12.0
export PATH=... :$SCALA_HOME/bin:$PATH

1.4 验证

HaDoop2.6下安装并配置Spark1.6.3_第3张图片

2.下载安装Spark

2.1 到官网下载对应hadoop的版本,hadoop2.7及更新的版本对应spark2.0,hadoop2.7以下对应1.X.X   

HaDoop2.6下安装并配置Spark1.6.3_第4张图片

2.2 下载后上传到安装目录
使用:`tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz`
解压后的文件为:`spark-1.6.3-bin-hadoop2.6`

2.3 配置spark-env.sh
进入到conf目录下:`cd /opt/spark-1.6.3-bin-hadoop2.6/conf`
复制spark-env.sh文件:`cp spark-env.sh.template spark-env.sh`
修改文件中的内容:`vi spark-env.sh`
在最后添加以下内容:
export JAVA_HOME=/opt/jdk1.8.0_91
export HADOOP_HOME=/opt/hadoop-2.6.0
export SPARK_HOME=/opt/spark-1.6.3-bin-hadoop2.6
export SCALA_HOME=/opt/scala-2.12.0
export HADOOP_CONF_DIR=/opt/hadoop-2.6.0/etc/hadoop
SPARK_LOCAL_IP=本机ip或主机名
SPARK_MASTER_IP=本机ip或主机名
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_WEBUI_PORT=7070
SPARK_LOCAL_DIRS=$SPARK_HOME/local_dirs
SPARK_WORKER_DIR=$SPARK_HOME/worker_dirs
SPARK_LOG_DIR=$SPARK_HOME/log_dirs
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=512M
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1"
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800"
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://crxy118:9000/historyserverforspark"
2.4 配置slaves
复制slaves文件:`cp slaves.template slaves`
修改slaves文件:`vi slaves`
将localhost更改为其他的主机名

2.5 配置spark-defaults.conf
复制spark-defaults.conf文件:`cp spark-defaults.conf.template spark-defaults.conf`
修改spark-defaults.conf:`vi spark-defaults.conf`
在后面添加:
spark.eventLog.enabled true
spark.eventLog.compress true
spark.eventLog.dir hdfs://主机名:9000/historyserverforspark
spark.broadcast.blockSize 8m
spark.executor.cores 1
spark.executor.memory 512m
spark.executor.heartbeatInterval 20s
spark.files.fetchTimeout 120s
spark.task.maxFailures 6
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.kryoserializer.buffer.max 256m
spark.akka.frameSize 128
spark.default.parallelism 20
spark.network.timeout 300s
spark.speculation true

3.开启进程
进入到spark安装目录下
开启Master和Worker进程,使用命令:sbin/start-all.sh
开启HistoryServer进程,使用命令:sbin/start-history-server.sh
使用jps查看进程,会发现多出:Master、Worker、HistoryServer进程

HaDoop2.6下安装并配置Spark1.6.3_第5张图片

4. Web界面查看

使用浏览器查看:主机名:8080

HaDoop2.6下安装并配置Spark1.6.3_第6张图片

使用浏览器查看:主机名:7070

HaDoop2.6下安装并配置Spark1.6.3_第7张图片

使用浏览器查看:主机名:18080

HaDoop2.6下安装并配置Spark1.6.3_第8张图片

你可能感兴趣的:(HaDoop)