王家林每日大数据语录Spark篇0005

Spark RDD是被分区的,对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度;RD的每次转换操作都会生成新的RDD,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。


你可能感兴趣的:(王家林,王家林语录,王家林spark)