物理机本地和集群部署Spark

一、单机本地部署

1)官网地址:http://spark.apache.org/
2)文档查看地址:https://spark.apache.org/docs/3.1.3/
3)下载地址:
https://spark.apache.org/downloads.html
https://archive.apache.org/dist/spark/

  1. 上传文件、解压缩、修改文件名
    物理机本地和集群部署Spark_第1张图片
  2. 启动Spark
    物理机本地和集群部署Spark_第2张图片
  3. spark-shell使用
    物理机本地和集群部署Spark_第3张图片
  4. 入门案例:

物理机本地和集群部署Spark_第4张图片
物理机本地和集群部署Spark_第5张图片

注意:sc是SparkCore程序的入口;spark是SparkSQL程序入口;master = local[*]表示本地模式运行。
物理机本地和集群部署Spark_第6张图片
物理机本地和集群部署Spark_第7张图片
说明:本地模式下,默认的调度器为FIFO。
在这里插入图片描述
物理机本地和集群部署Spark_第8张图片
物理机本地和集群部署Spark_第9张图片

二、Standalone模式

Standalone模式是Spark自带的资源调度引擎,构建一个由Master + Worker构成的Spark集群,Spark运行在集群中。
这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群,不需要借助Hadoop的Yarn和Mesos等其他框架。
物理机本地和集群部署Spark_第10张图片
物理机本地和集群部署Spark_第11张图片

  1. 集群规划
    在这里插入图片描述
  2. 解压缩、修改文件名
    物理机本地和集群部署Spark_第12张图片
  3. 进入Spark的配置目录/opt/module/spark-standalone/conf,修改slave文件,添加work节点,分发文件:
    在这里插入图片描述

在这里插入图片描述
物理机本地和集群部署Spark_第13张图片4. 启动spark集群
物理机本地和集群部署Spark_第14张图片

物理机本地和集群部署Spark_第15张图片
5. 测试
物理机本地和集群部署Spark_第16张图片
物理机本地和集群部署Spark_第17张图片

三、yarn模式

Spark客户端直接连接Yarn,不需要额外构建Spark集群。

  1. 上传文件、解压缩、修改文件名
    物理机本地和集群部署Spark_第18张图片
  2. 修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml,添加下面内容,并分发文件
    物理机本地和集群部署Spark_第19张图片
    注意:生产环境视情况而定

物理机本地和集群部署Spark_第20张图片
3. 修改/opt/module/spark-yarn/conf/spark-env.sh,添加YARN_CONF_DIR配置,保证后续运行任务的路径都变成集群路径
在这里插入图片描述
在这里插入图片描述
4. 启动HDFS以及YARN集群
先启动zk,启动yarn,启动hdfs
物理机本地和集群部署Spark_第21张图片
5. 测试
物理机本地和集群部署Spark_第22张图片

你可能感兴趣的:(spark,大数据,分布式)