spark RDD 中 transformation的map、flatMap、mapPartitions、glom详解--(视频笔记)

map
通过自定义函数 f:T->u 将元数据T转换为u,不会将split进行合并

flatMap
通过自定义函数 f:T->u 进行数据变换,并将拆分后的小集合合并成一个大集合。

mapPartitions
Iter => iter.filter(_>3)
作用于整个分区(例如hbase表等)进行操作

glom
将每个分区生成数组,将泛型RDD转换为RDD[Array]

你可能感兴趣的:(spark RDD 中 transformation的map、flatMap、mapPartitions、glom详解--(视频笔记))