Spark每日半小时(9)——PairRDD的数据分组

对于有键的数据,一个常见的用例是将数据根据键进行分组——比如查看一个顾客的所有订单。

groupByKey()

如果数据已经以预期的方式提取了键,groupByKey()就会使用RDD中的键来对数据进行分组。对于一个由类型K的键和类型V的值组成的RDD,所得到的结果RDD类型回事[K, Iterable[V]]。

groupBy()可以用于未成对的数据上,也可以根据除键相同以外的条件进行分组。它可以接收一个函数,对源RDD中的每个元素使用该函数,将返回结果作为键再进行分组。

如果你发现自己写出了先使用groupByKey()然后再对值使用reduce()或者fold()的代码,你很有可能可以通过使用一种根据键进行聚合的函数来更高效地实现同样的效果。对每个键归约数据,返回对应每个键的归约值的RDD,而不是把RDD归约为一个内存中的值。例如,rdd.reduceByKey(func)与rdd.groupByKey().mapValues(value => value.reduce(func))等价,但是前者更为高效,因为它避免了为每个键创建存放值的列表的步骤。

cogroup()

除了对单个RDD的数据进行分组,还可以使用一个叫做cogroup()的函数对多个共享同一个键的RDD进行分组。对两个键的类型均为K而值的类型分别为V和W的RDD进行cogroup()时,得到的结果RDD类型为 [(K, (Iterable[V], Iterable[W]))],如果其中的一个RDD对于另一个RDD中存在的某个键没有对应的记录,那么对应的迭代器则为空。cogroup()提供了为多个RDD进行数据分组的方法。

cogroup()不仅可以用于实现连接操作,还可以用来求键的交集。除此之外,cogroup()还能同时应用于三个及以上的RDD。

你可能感兴趣的:(#,大数据——Spark每日半小时,#,Spark每日半小时)