辅助线——hadoop

计算框架

spark vs mapreduce

Spark 在内存中处理数据,而 Hadoop MapReduce 是通过 map 和 reduce 操作在磁盘中处理数据。因此从这个角度上讲 Spark 的性能应该是超过 Hadoop MapReduce 的。
Spark 每次将处理过程加载到内存之中,然后该操作作为缓存一直保持在内存中直到下一步操作。如果 Spark 与其它资源需求型服务一同运行在 Hadoop YARN 上,又或者数据块太大以至于不能完全读入内存,此时 Spark 的性能就会有很大的降低。

spark的action transformation

transformation: 得到一个新的rdd
action:得到一个值或者一个结果

transformation:
map
flatmap
filter
action:
reduce
collect
count
链接

如何划分stage
链接
链接中的是否重组,就是宽依赖和窄依赖:
宽依赖往往对应着shuffle操作,需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中,中间可能涉及多个节点之间的数据传输;而窄依赖的每个父RDD的分区只会传入到一个子RDD分区中,通常可以在一个节点内完成转换。
如果是窄依赖的分在一个stage里,宽依赖分成两个stage.
链接

你可能感兴趣的:(基础知识)