Spark API 之 countByValue

countByValue():根据rdd中的元素值相同的个数。返回的类型为Map[K,V],  K : 元素的值,V :元素对应的的个数

demo1:

val a = sc.parallelize(List("a","b","c","d","a","a","a","c","c"),2);

a.countByValue(); 输出的结果为:

scala.collection.Map[String,Long] = Map(d -> 1, b -> 1, a -> 4, c -> 3);

demo2:  为了区别countByKey()

val a = sc.parallelize(List( ("a",1) ,  ("a",1)  ,  ("b",1)  ,  ("c",1)    ,("d",1)  ));

a.countByValue();输出的结果为:

Map[(String, Int),Long] = Map( (b,1) -> 1,  (d,1) -> 1,  (a,1) -> 2,   (c,1) -> 1)

countByValue()函数与tuple元组中的(k,v)中的v 没有关系,这点要搞清楚,countByValue是针对Rdd中的每一个元素对象,

而 countByKey 主要针对的事tuple(k,v)对象,并且与k 是有关系的,countByKey根据tuple(k,v)中的 k 进行统计的。使用的时候要区分。




你可能感兴趣的:(sparkAPI使用案例)