大数据学习——java调用spark学习测试

spark是一种计算框架,如果只是想学习,完全可以脱离hadoop而独立运行,当然这样就没法使用hdfs进行数据存储。

windows环境下,使用java语言添加spark依赖包就可以直接使用spark了。

一、maven添加spark依赖:

大数据学习——java调用spark学习测试_第1张图片

这个jar包还是挺大的,下载需要点时间。

二、随便写个map操作

import org.apache.commons.lang3.StringUtils;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;

public class TestMainQF {
    
    public static void main(String [] args){
        System.out.println("hello word");
        TestMainQF test = new TestMainQF();
        test.test();
    }

    private void test() {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("TestQF");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD inRDD = sc.parallelize(Arrays.asList(1,2,3,4,5));
        JavaRDD outRDD = inRDD.map(s->s+10);
        System.out.println(StringUtils.join(outRDD.collect(),","));
    }
}

这段代码会正确运行,但日志里会看到hadoop找不到的提示。

没关系,win本地安装一个hadoop就好:https://blog.csdn.net/qq_15903671/article/details/96478320

大数据学习——java调用spark学习测试_第2张图片

这个版本的spark依赖包主要是找hadoop的bin路径下的这个winutils.exe文件。加压好hadoop,将winutils加压内容(bin、etc文件夹)覆盖进去, HADOOP_HOME环境变量配置好就OK了。

大数据学习——java调用spark学习测试_第3张图片

正常的运行结果。

你可能感兴趣的:(大数据学习——java调用spark学习测试)