6 | 从文本文件中读取单词并输出不重复的单词列表

Transformation 操作

Transformation 操作是用于从一个 RDD(Resilient Distributed Dataset)创建一个新的 RDD,通常是通过对原始 RDD 的元素进行映射、筛选、分组等操作来实现的。Transformation 操作不会立即执行,而是惰性计算,只有在 Action 操作触发时才会真正执行。以下是一些常见的 Transformation 操作:

转换操作 描述
map(func) 对 RDD 中的每个元素应用函数 func,返回一个新的 RDD。
filter(func) 使用函数 func 对 RDD 中的元素进行筛选,返回一个包含满足条件的元素的新 RDD。
flatMap(func) 类似于 map,但每个输入元素可以映射到多个输出元素。
distinct() 返回一个包含 RDD 中不重复元素的新 RDD。
groupByKey() 将 RDD 中具有相同键的元素分组到一个迭代器中。
reduceByKey(func) 对具有相同键的元素使用函数 func 进行聚合。
sortByKey() 根据键对元素进行排序。
union

你可能感兴趣的:(大数据系列,hadoop,Spark,系列,ajax,前端,javascript)