昨天又捣鼓了一下,网上有些写得很不错的教程,自己经过尝试后觉得需要整理一下。
spark的运行模式有多种(见官网和Spark的Standalone模式安装部署):
本文主要记录的是基于standalone的方式和基于集群的方式。
虚拟机安装
由于主要的实验室环境是Ubuntu系统的服务器,内存大约为64G,使用的虚拟机为virtualbox,在官网下载,安装步骤略。注意,请用相同的用户名创建,这会为后面省去很多麻烦。
主从机互ping
随后将两个guest机配置成slave1和slave2,host机作为master,这里主要需要注意的是通信问题。
要让彼此都ping通,有一点小技巧,我是参照这个教程来做的。
https://2buntu.com/articles/1513/accessing-your-virtualbox-guest-from-your-host-os/
简言之,在默认NAT的模式下,guest是可以直接访问host的,也可以互相访问,但是host不能访问guest,不过通过添加host-only networks,再在guest端添加对应的适配器,host和guest就在同一个网段了。
将它们对应的ip都添加到各自的/etc/hosts
文件中。
无密码登陆
在ping通后,我们希望可以无密码登陆,具体要做的事情是从机分别将公钥发给主机,然后主机综合所有的公钥(包括它自己的),将authorized_keys复制到slave1和slave2的~/.ssh
目录下。如果要从图形界面观看这个文件夹,由于它是隐藏的,可以按ctrl+H
键显示出来。
操作流程:
1) 安装ssh : sudo apt-get install openssh-server
安装完成后使用ssh命令登陆本机 ssh localhost
2)
exit # 退出刚才的 ssh localhost
cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
3) 在从机slave1和slave2上重复这个步骤,随后利用scp传输:
在slave1上:scp id_rsa.pub singleton@master:~/.ssh/id_rsa.pub.slave1
在slave2上:scp id_rsa.pub singleton@master:~/.ssh/id_rsa.pub.slave2
在master上:
cat id_rsa.pub >> authorized_keys
cat id_rsa.pub.slave1 >> authorized_keys
cat id_rsa.pub.slave2 >> authorized_keys
随后将master的公钥信息authorized_keys复制到slave1和slave2对应目录下,就可以实现无密码登陆了。
修改master、slave1、slave2的配置文件
详细的修改策略可以参考:
http://www.powerxing.com/install-hadoop/
注意不能完全照搬,这里我打算将master既作为主节点,又作为计算节点,所以修改slaves为:
master
slave1
slave2
同时三台机器上的’dfs.replication’值设置为3,就是说数据会有3份备份。
测试Hadoop分布式集群环境
首先确保每台机器的JAVA_HOME都已经准确设置了,就可以按照教程测试了。
测试步骤请同样参考 http://www.powerxing.com/install-hadoop/
安装scala,并设置SCALA_HOME
,在3台机器上都做同样配置。
由于我一开始下载的版本是2.11.7所以我自己重新编译了一下。
在官网下载:http://spark.apache.org/downloads.html
Scala 2.11 users should download the Spark source package and build with Scala 2.11 support.
./dev/change-scala-version.sh 2.11
./build/mvn -Pyarn -Phadoop-2.6 -Dscala-2.11 -DskipTests clean package
配置Spark的运行环境,将spark-env.sh.template模板文件复制成spark-env.sh,然后填写相应需要的配置内容
具体的说明可见相应template中注释掉的内容
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORDER_INSTANCES=1
export SPARK_WORKER_MEMORY=5g
或者参考:
https://taoistwar.gitbooks.io/spark-operationand-maintenance-management/content/spark_install/spark_standalone_configuration.html
修改该conf/slaves文件,写入各节点的主机名,master本身也作为工作节点:
master
slave1
slave2
启动集群,首先启动hadoop集群,简单的方式就是在
~/hadoop/sbin/start-all.sh
在master上jps可以看到:
namenode
nodemanager
resourcemanager
secondarynamenode
datanode
随后启动spark集群
~/spark/sbin/start-all.sh
此时会多出
worker
master
在intellij中以scala进行开发,一个图文教程可见:
http://smartdata.vn/index.php/component/k2/item/66-apache-spark-programming-for-beginner-with-intellij-idea
附上一段work的源码
/**
* Created by singleton on 4/8/16.
*/
import scala.math.random
import org.apache.spark._
object RemoteDebug {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Spark Pi").setMaster("spark://master:7077")
.setJars(List("/home/singleton/GraduateWorkshop/SparkRemote/out/artifacts/SparkRemote_jar/SparkRemote.jar"))
val spark = new SparkContext(conf)
val slices = if (args.length > 0) args(0).toInt else 2
val n = 100000 * slices
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x * x + y * y < 1) 1 else 0
}.reduce(_ + _)
println("Pi is roughly " + 4.0 * count / n)
spark.stop()
}
}
相关的配置步骤可以按照参考教程:
Windows下IntelliJ IDEA中调试Spark Standalone
http://www.cnblogs.com/yuananyun/p/4265706.html
推荐阅读:
除博文中给出的链接外:
spark on YARN集群部署:
http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/