Spark简介

Spark作为第二代大数据处理工具,跟hadoop对比,它是基于内存的,所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。Spark以Rdd作为基础,Rdd是一个分布式的容器,类似于java中的String数组,但是它是分布式的。Rdd中有各种算子,总的来说分为转化算子和行动算子,转换算子不触到真正的计算,当执行到行动算子时才会触发真正的计算。

你可能感兴趣的:(Spark简介)