spark中的map与flatMap的一些见解

在spark中map函数和flatMap函数是两个比较常用的函数。其中 
map:对集合中每个元素进行操作。 
flatMap:对集合中每个元素进行操作然后再扁平化。 
理解扁平化可以举个简单例子

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.flatmap(x=>(x._1+x._2)).foreach(println)
  • 1
  • 2

输出结果为

A
1
B
2
C
3
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

如果用map

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.map(x=>(x._1+x._2)).foreach(println)
  • 1
  • 2

输出结果

A1
B2
C3
  • 1
  • 2
  • 3

所以flatMap扁平化意思大概就是先用了一次map之后对全部数据再一次map。

实际使用场景

有一个场景,在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串,则(A,B),(C,D),(D,B)相邻字符对出现一次,(B,C)出现两次。 
如有数据

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B
  • 1
  • 2
  • 3

统计相邻字符对出现次数代码如下

data.map(_.split(";")).flatMap(x=>{
      for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
    }).reduceByKey(_+_).foreach(println)
  • 1
  • 2
  • 3

输出结果为

(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

此例子就是充分运用了flatMap的扁平化功能。

你可能感兴趣的:(20161114)