spark1.x和spark2.x兼容Iterable和Iterator问题

1. spark 1.x 升级到spark 2.x

spark1.x和spark2.x兼容Iterable和Iterator问题_第1张图片

对于普通的spark来说,变动不大 :
举一个最简单的实例:
spark1.x
 1 public static JavaRDD workJob(JavaRDD spark1Rdd) {
 2  
 3         JavaPairRDD testRdd = spark1Rdd
 4                 .flatMapToPair(new PairFlatMapFunction() {
 5  
 6             @Override
 7             public Iterable> call(String str)
 8                     throws Exception {
 9                 ArrayList> list = new ArrayList<>();
10                 return list;
11  
12  
13             }
14         });
15  
16         return spark1Rdd;
17     }
spark2.x
 1 public static JavaRDD workJob(JavaRDD spark2Rdd) {
 2  
 3         JavaPairRDD testRdd2 = spark2Rdd
 4                 .flatMapToPair(new PairFlatMapFunction() {
 5  
 6             @Override
 7             public Iterator> call(String str)
 8                     throws Exception {
 9                 ArrayList> list = new ArrayList<>();
10  
11  
12                 return list.iterator();
13             }
14         });
15  
16         return spark2Rdd;
17     }

 

需要说明的是:
上面的返回的rdd就直接用输入的 RDD显然是不合理的! 只是为了用最简洁的方式介绍代码的转换而已!
 
可以看到 : 区别主要在于
1 . spark  1 .x中的Iterable对象 变成了 spark2.x中的Iterator对象
2 . 相应的,对于返回值为list的RDD,  spark2.x中要返回list.iterator();
 
还是很简单的吧
 
问题在于 : 如果你有几个spark程序要运行在不同的环境下,(有的现场用 1 .x,有的现场用 2 .x)
你需要同时维护两种不同版本的spark,是不是耗时又耗力呢?
 
这个时候就需要考虑到 spark版本的兼容性,使你的程序能成功的运行在各种集群环境下
 
2 . spark版本的兼容
写一个简单的工具类如下 :
 1 import java.util.Iterator;
 2  
 3 public class MyIterator implements Iterator, Iterable
 4 {
 5     private Iterator myIterable;
 6  
 7     public MyIterator(Iterable iterable)
 8     {
 9         myIterable = iterable.iterator();
10     }
11  
12     @Override
13     public boolean hasNext()
14     {
15         return myIterable.hasNext();
16     }
17  
18     @Override
19     public Object next()
20     {
21         return myIterable.next();
22     }
23  
24     @Override
25     public void remove()
26     {
27         myIterable.remove();
28     }
29  
30     @Override
31     public Iterator iterator()
32     {
33         return myIterable;
34     }
只需要进行如上设计就可以实现版本的兼容了
那么应该如何应用呢?
1  JavaRDD flatMapRDD = lines.flatMap(new FlatMapFunction() {
2             @Override
3             public MyIterator call(String s) throws Exception {
4                 String[] split = s.split("\\s+");
5                 MyIterator myIterator = new MyIterator(Arrays.asList(split));
6                 return myIterator;
7             }
8 });

 转载于:https://www.cnblogs.com/huiandong/p/9982516.html

转载于:https://www.cnblogs.com/carsonwuu/p/11549373.html

你可能感兴趣的:(大数据,java)