spark day04

    • 1.spark作业

  • 1.Application 核心概念

  • 1.driver : a driver program

  • 2.executors : executors on the cluster

  • 2.Application jar

  • 1.spark作业生成的jar包

  • 2.spark作业 main方法

  • 3.部署服务器上

  • 3.Driver program 驱动程序

  • 1.main方法

  • 2.创建sparkcontext

  • 4.Cluster manager 集群管理者

  • 一个外部服务,提供资源

  • 5.Deploy mode

  • spark ja包 提交服务器去运行

  • 提供了一个进程去运行,

  • 两个模式

  • cluster

  • driver跑在集群内部(yarn所在的集群)

  • client

  • driver跑在集群外面

  • 6.Worker node 工作节点

  • 能运行工作的代码

  • 7.Exector

  • 1.runs tasks (本身是一个线程,运行在worker node )

  • 2.keeps data in memory or disk storage

  • Each application has its own executors 每个应用程序都有自己的执行程序

  • 8.Task

  • Spark Streaming最后也会转换成Task进行数据的处理

  • Task运行速度也会影响它处理数据的速度

  • 9.Job

  • 一个spark作业中有多个job

  • 有action操作,触发job的执行

  • 10.Stage

  • 1.Each job gets divided into smaller sets of tasks => stage

(每一项工作都被划分为更小的任务组)

  • 2. depend on each other (互相依赖)

  • 总结

  • 一个application:包含1到n个job

  • 一个job:包含1到n个stage

  • 一个stage:包含1到n个task

  • task和partition一一对应

    • 2.spark执行流程

spark day04_第1张图片

  • 1.spark作业进行在集群上 有一系列进程

  • 2.SparkContext去协调这些进程

  • 3.运行spark作业

  • 1.sc去连接cluster manager

  • 2.cluster manager给spark作业分配资源

  • 3.spark一旦连接上cluster

  • 1.启动executor

  • 2.executer:计算和存储数据

  • 4.sc发送代码给executor

sc发送task去executor运行

  • 4.spark执行框架补充

  • 1.每个spark作业有自己的executor进程

  • 举例

  • app1 executors 1

  • app2 executors 1

  • 好处

  • 1.资源隔离

  • 2.调度隔离

  • 缺点

  • 数据不能进行共享【数据写到外部存储系统可进行共享】

    • 3.spark整合yarn

  • 1.复制

  • [hadoop@bigdata13 conf]$ cp spark-env.sh.template spark-env

  • 2.配置参数

[hadoop@bigdata13 conf]$ vim spark-env

//添加
HADOOP_CONF_DIR=/home/hadoop/app/hadoop/etc/hadoop
YARN_CONF_DIR=/home/hadoop/app/hadoop/etc/hadoop

你可能感兴趣的:(spark,java,大数据,开发语言)