基于Kubernetes的Spark集群部署和测试

基于Kubernetes的Spark集群部署和测试

  • 一、构建Docker镜像
  • 二、在Kubernetes上创建Spark集群
  • 三、测试Spark的一个简单应用

  Spark是新一代分布式内存计算框架,Apache开源的顶级项目。相比于Hadoop Map-Reduce计算框架,Spark将中间计算结果保留在内存中,速度提升10~100倍;同时它还提供更丰富的算子,采用弹性分布式数据集(RDD)实现迭代计算,更好地适用于数据挖掘、机器学习算法,极大提升开发效率。
  Docker是轻量级虚拟化容器技术,具有轻便性、隔离性、一致性等特点,可以极大简化开发者的部署运维流程,降低服务器成本。
  Kubernetes是Google开源的容器集群管理系统,提供应用部署、维护、 扩展等功能,能够方便地管理大规模跨主机的容器应用。
  Spark集群在Kubernetes运行的工作原理,如下图所示。
基于Kubernetes的Spark集群部署和测试_第1张图片
接下来,我们开始使用 Docker和Kubernetes创建Spark集群(其中包含1个spark-master和N个spark-workers)。
首先需要准备以下条件:

  • (1)部署并正常运行的 Kubernetes集群
  • (2)Docker的私有仓库Harbor(具体步骤可参考网上相关教程)
  • (3)spark镜像安装包(百度云链接:
    链接:https://pan.baidu.com/s/1s83Jj16BKrTQL3Cuk5tu_Q
    提取码:noh8

一、构建Docker镜像

1.首先从本地把spark镜像安装包上传到虚拟机,并导出镜像。

root@linux-harbor:~# rz

基于Kubernetes的Spark集群部署和测试_第2张图片

root@linux-harbor:~# docker load --input spark_1.5.2.tar
root@linux-harbor:~# docker images

基于Kubernetes的Spark集群部署和测试_第3张图片
2.把虚拟机的saprk镜像上传到自己的私有仓库Harbor。

root@linux-harbor:~# docker tag caicloud/spark:1.5.2 192.168.185.130/library/spark:1.5.2
root@linux-harbor:~# docker push 192.168.185.130/library/spark:1.5.2

基于Kubernetes的Spark集群部署和测试_第4张图片
注意事项:

  • 当镜像有版本号的时候,tag和push的时候要加上版本号,否则会提示找不到镜像。
  • 192.168.185.130/library/spark:1.5.2是本人自己Harbor中的镜像地址,你需要修改为自己的镜像地址,否则上传镜像会失败。

二、在Kubernetes上创建Spark集群

在Kubernetes上创建spark集群,是通过执行ymal文件来创建的,下面会给出相关的yaml文件和具体步骤。
1.创建spark-master:先创建命名空间Namespace,接着创建Secret,用来保存密码、私钥、口令等敏感信息,然后创建spark-master的ReplicationController,最后创建spark所提供的Service(spark-master-service)。spark-workers使用spark-master-service来连接spark-master。

root@linux-node1:~# mkdir -p yaml/spark/
root@linux-node1:~# cd yaml/spark/
root@linux-node1:~/yaml/spark# vim spark-master.yaml 
apiVersion: v1
kind: Namespace
metadata:
  name: spark-cluster
  labels:
    name: spark-cluster
---
apiVersion: v1
kind: Secret
metadata:
  name: secret-n
  namespace: spark-cluster
data:
  .dockerconfigjson: ewoJImF1dGhzIjogewoJCSIxOTIuMTY4LjE4NS4xMzYiOiB7CgkJCSJhdXRoIjogIllXUnRhVzQ2U0dGeVltOXlNVEl6TkRVPSIKCQl9Cgl9LAoJIkh0dHBIZWFkZXJzIjogewoJCSJVc2VyLUFnZW50IjogIkRvY2tlci1DbGllbnQvMTcuMDkuMC1jZSAobGludXgpIgoJfQp9
type: kubernetes.io/dockerconfigjson
---
kind: ReplicationController
apiVersion: v1
metadata:
  name: spark-master
  namespace: spark-cluster
spec:
  replicas: 1
  selector:
    component: spark-master
  template:
    metadata:
      labels:
        component: spark-master
    spec:
      containers:
        - name: spark-master
          image: 192.168.185.130/library/spark:1.5.2
          command: ["/start-master"]
          ports:
            - containerPort: 7077
            - containerPort: 8080
          resources:
            requests:
              cpu: 100m
      imagePullSecrets:
      - name: secret-n
---
kind: Service
apiVersion: v1
metadata:
  name: spark-master
  namespace: spark-cluster
spec:
  ports:
    - port: 7077
      targetPort: 7077
  selector:
    component: spark-master
---
root@linux-node1:~/yaml/spark# kubectl create -f spark-master.yaml 

查看一下pod和service的运行状态:

root@linux-node1:~/yaml/spark# kubectl get pod -n spark-cluster
root@linux-node1:~/yaml/spark# kubectl get svc -n spark-cluster

在这里插入图片描述
在这里插入图片描述
注意事项:

  • 第38行image后面的地址192.168.185.130/library/spark:1.5.2是本人自己Harbor中的镜像地址,你需要修改为自己的镜像地址,否则在拉取镜像的过程中会提示失败。

2.创建spark-workers:先创建spark所提供的Services(spark-webui),,然后创建spark-workers的ReplicationController。spark-workers启动时需要 spark-master service处于运行状态,我们可以通过修改replicas来设定worker数目(比如设定 replicas: 4,即可建立4个spark-workers)。我们也可以为每一个worker节点设置了CPU和内存的配额,保证Spark的worker应用不会过度抢占集群中其他应用的资源。

root@linux-node1:~/yaml/spark# vim spark-workers.yaml 
kind: Service
apiVersion: v1
metadata:
  name: spark-webui
  namespace: spark-cluster
spec:
  ports:
    - port: 8081
      targetPort: 8081
  selector:
    component: spark-master
---
kind: ReplicationController
apiVersion: v1
metadata:
  name: spark-worker-controller
  namespace: spark-cluster
spec:
  replicas: 4
  selector:
    component: spark-worker
  template:
    metadata:
      labels:
        component: spark-worker
    spec:
      containers:
        - name: spark-worker
          image: 192.168.185.130/library/spark:1.5.2
          command: ["/start-worker"]
          ports:
            - containerPort: 8088
          resources:
            requests:
              cpu: 100m
      imagePullSecrets:
        - name: secret-n

root@linux-node1:~/yaml/spark# kubectl create -f spark-workers.yaml 

查看一下pod和service的运行状态:

root@linux-node1:~/yaml/spark# kubectl get pod -n spark-cluster
root@linux-node1:~/yaml/spark# kubectl get svc -n spark-cluster

基于Kubernetes的Spark集群部署和测试_第5张图片基于Kubernetes的Spark集群部署和测试_第6张图片
注意事项:

  • 第30行image后面的地址192.168.185.130/library/spark:1.5.2是本人自己Harbor中的镜像地址,你需要修改为自己的镜像地址,否则在拉取镜像的过程中会提示失败。

通过浏览器访问Kubernetes,在命名空间查看Spark集群的运行状态:
基于Kubernetes的Spark集群部署和测试_第7张图片

三、测试Spark的一个简单应用

计算圆周率 π \pi π的近似值。通过Spark-client,可以利用spark-submit来提交复杂的Python脚本、Java/Scala的jar包代码。

root@linux-node1:~# kubectl exec spark-worker-controller-7htn6 -n spark-cluster -it /bin/bash
root@spark-worker-controller-7htn6:/# spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--master spark://spark-master:7077 \
$SPARK_HOME/opt/spark/lib/spark-examples-1.5.2-hadoop2.6.0.jar

运行结果如图所示:
基于Kubernetes的Spark集群部署和测试_第8张图片
注意事项:

  • spark-examples-1.5.2-hadoop2.6.0.jar包是Spark自带的,jar包路径$SPARK_HOME/opt/spark/lib/spark-examples-1.5.2-hadoop2.6.0.jar要修改成自己的准确路径,否则会提示java.lang.ClassNotFoundException。
  • executor-memory设置不要等于或超过虚拟机的内存,否则会提示check your cluster UI to ensure that workers are registered and have sufficient resources。

你可能感兴趣的:(Kubernetes,Spark)