10. 大数据基础

1. shuffle 过程

https://blog.csdn.net/zpf336/article/details/80931629

2. Spark为什么快?

这里的快一般是指相对mapreduce快,所以这里的为什么主要是和 mapreduce 进行对比。
https://www.zhihu.com/question/31930662

3. Spark提交任务流程(Spark on yarn运行的全流程)

  • 首先通过spark-submit向yarn提交Application应用,ResouceManager选择一个NodeManager 为该Application启动ApplicationMaster。
  • ApplicationMaster向ResouceManager注册和申请Container,ResouceManager收到ApplicationMaster的请求后,使用自己的资源调度算法,在不同的nodemanager为Application启动多个Executor.
  • 多个Executor启动之后,会反向注册到ApplicationMaster;随后ApplicationMaster启动driver(driver是AM进程中的线程)
  • driver初始化Sparkcontext,Sparkcontext是用户通向spark集群的入口,在初始化sparkContext的同时,会初始化DAGScheduler、TaskScheduler。
  • 接下里来将所遇到对RDD的所有操作形成一个DAG有向无循环图,每执行到action操作就会创建一个job到DAGScheduler中,而job又根据RDD的依赖关系划分成多个stage,每个stage根据最后一个RDD的分区数目来创建相应数量的task,这些task形成一个taskset
  • DAGScheduler将taskset送到taskscheduler中,然后taskscheduler对task进行序列化,封装到launchTask中,最后将launchTask发送到指定的executor中。
  • executor接收到了TaskScheduler发送过来的launchTask 时,会对launchTask 进行反序列化,封装到一个TaskRunner 中,然后从executor线程池中获取一个线程来执行指定的任务.
  • 最终当所有的task任务完成之后,整个application执行完成,关闭sparkContext对象。

参考:

  1. https://www.cnblogs.com/hdc520/p/12588379.html
  2. https://www.jianshu.com/p/765bed108036

4. 宽依赖和窄依赖

宽依赖:一个父RDD的分区对应多个子RDD的分区
窄依赖:一个父RDD的分区对应一个子RDD的分区
宽窄依赖主要影响 stage 的划分,shuffle 前的步骤为一个 stage。

5. Spark 容错机制

容错一般有两种方式:数据检查点(checkpoint)、记录更新。spark 采用记录更新的方式。但是 spark 只支持粗粒度(单个分区的单次操作)记录,也即 spark 会记录 RDD 的变换序列(每个RDD是如何由其他RDD变换过来的以及如何重建某个分区数据的信息),当数据发生丢失,就根据变换序列来进行恢复。这种方式又称为血统容错。

6. Spark 中 transfrom 和 action 的区别

transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD、从RDD生成一个新的RDD等;action是得到一个值,或者一个结果(直接将RDD cache到内存中)。所有的transformation都是采用的懒策略:如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。

7. RDD、DataFrame、DataSet 异同

https://www.jianshu.com/p/6501eb74c8e1

8. Spark 广播变量及其原理

当在Executor端用到了Driver变量,若不使用广播变量,则在每个Executor中有多少个task就有多少个Driver端变量副本。如果使用广播变量在每个Executor端中只有一份Driver端的变量副本。广播变量在Driver定义,在Exector端不可改变,在Executor端不能定义。实际上就是Executor端用到了driver端的变量。使用了广播变量,实际上就是为了减少executor端的备份,最终减少executor端的内存。

  • 广播变量的创建:广播变量的创建发生在Driver端,当调用b=sc.broadcast(rdd)来创建广播变量时,会把该变量的数据切分成多个数据块,保存到driver端的BlockManger中,使用的存储级别是:MEMORY_AND_DISK_SER。广播变量的值必须是本地的可序列化的值,不能是RDD。广播变量一旦创建就不应该再修改,这样可以保证所以的worker节点上的值是一致的。
  • 广播变量的读取:b.value(),广播变量的读取也是懒加载的,此时广播变量的数据只在Driver端存在,只有在Executor端需要获取广播变量时才会去加载。加载后,首先从Executor本地的BlockManager中读取广播变量的数据,若存在就直接获取。executor的BlockManager除了从driver上拉取,也可能从其他节点的BlockManager上拉取变量副本,距离越近越好。

9. Spark 优化

https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

10. Spark 数据倾斜处理方法

https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

参考

  1. https://www.cnblogs.com/hdc520/p/12588379.html
  2. https://runzhliu.github.io/posts/spark-%E9%9D%A2%E8%AF%95%E9%A2%98%E7%B3%BB%E5%88%97-1/
  3. https://runzhliu.github.io/posts/spark-%E9%9D%A2%E8%AF%95%E9%A2%98%E7%B3%BB%E5%88%97-2/
  4. https://blog.csdn.net/zpf336/article/details/80931629
  5. https://blog.csdn.net/zhuzuwei/article/details/104446388

你可能感兴趣的:(10. 大数据基础)