Spark求最大值
1: 以前用过hadoop从文件中读取数据求过最大值。现在用Spark来求最大值。由于spark的资料比较少所以搞了半天才弄完。我亲自测试在local状态下14750778条数据用了10秒。
2:下载spark-0.9.1-bin-hadoop1并解压到F:\BigData (Spark可以再Windows上运行) 打开目录F:\BigData\spark-0.9.1-bin-hadoop1\assembly\target\scala-2.10把里面的spark-assembly_2.10-0.9.1-hadoop1.0.4.jar放到新建的工程里面就可以了。
准备数据:新建一个data文件在里面输入如下内容:
1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
2,3,5.0
2,4,1.0
3,1,1.0
3,2,5.0
3,3,1.0
3,4,5.0
4,1,1.0
4,2,5.0
4,3,1.0
4,4,5.0
1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
2,3,5.0
2,4,1.0
3,1,1.0
3,2,5.0
3,3,1.0
3,4,5.0
4,1,1.0
4,2,5.0
4,3,1.0
4,4,5.0
1,1,5.0
1,2,1.0
1,3,5.0
1,4,1.0
2,1,5.0
2,2,1.0
数据之间用逗号分隔
打开eclipse新建一个javaProject.
在任意包中书写如下内容
package com.spark.test;
import java.util.Arrays;
import java.util.regex.Pattern;
import org.apache.spark.api.java.JavaDoubleRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.DoubleFunction;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
public final class Max {
private static final Pattern SPACE = Pattern.compile(",");
public static void main(String[] args) throws Exception {
// spark安装目录
String spark_home = "F:\\BigData\\spark-0.9.1-bin-hadoop1";
// "local" 代表了本地运行模式
JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",
spark_home, JavaSparkContext.jarOfClass(JavaWordCount.class));
// 加载文件
JavaRDD<String> lines = ctx
.textFile(
"E:\\workspace\\spark\\src\\com\\spark\\resource\\test.data",
1);
// flatMap函数是把每一行根据分隔符把它变成多行。比如1,2,3 用逗号分隔用了flatMap后变成
// 1
// 2
// 3 .这一行的主要作用是把所有的数据放到JavaRDD里面
JavaRDD<String> words = lines
.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterable<String> call(String s) {
return Arrays.asList(SPACE.split(s));
}
});
// 把JavaRDD<String>类型变成JavaDoubleRDD类型的
JavaDoubleRDD one = words.map(new DoubleFunction<String>() {
@Override
public Double call(String s) throws Exception {
if (s.trim().length() == 0) {
s = "0";
}
return Double.parseDouble(s);
}
});
// 统计有多少条数据
System.out.println(one.count() + "%%%%%%%%");
// 求最大值.new Function2<Double, Double, Double>()
// 函数的3个参数,第一个和第二个参数对应call函数里面的第一个参数和第二个参数。第3个参数代表call函数的返回值类型
Double max = one.rdd().reduce(new Function2<Double, Double, Double>() {
@Override
public Double call(Double i1, Double i2) throws Exception {
return Math.max(i1, i2);
}
});
System.out.println(max);
System.exit(0);
}
}