Spark源码阅读之环境配置(Windows)

Spark源码阅读是深入理解大数据框架和性能调优的必要过程,本文介绍在Windows环境下配置Spark源码阅读环境。

相关工具

本文是在windows下的IDEA上搭建源码阅读环境,下列配置仅供参考,可以根据实际情况更改,不需要完全一致。

Java1.8
Scala 2.12.8
Maven 3.5.4
Git 2.7.2
Intellij IDEA 2019.1.1

源码获取与编译

 使用git获取最新Spark源码:

# Master development branch
git clone git://github.com/apache/spark.git

本文下载的是Spark2.12版本源码。得到源码后对源码进行编译,Spark官方文档给出了基于SBT和Maven的编译方式(官网),这里采用Maven方式编译。在编译之前,首先需要对Maven的相关参数进行配置,以确保编译过程中不会出错,在Maven安装目录下找到bin/mvn.cmd文件,在里面添加:

@REM set MAVEN_OPTS=-Xmx2g -XX:ReservedCodeCacheSize=512m

设置好相关参数之后切换目录到Spark源码根目录下面,开始编译Spark源码:

需要注意的是,我们最好是使用Git Bash进行编码并且路径不能带中文名字,进入源码根目录之后,执行命令:

mvn -DskipTests clean package

由于国内下载中央仓库有时会很慢,还可能会挂掉,所以最好换成阿里云的镜像网站:

首先在maven的配置文件setting.xml文件中添加镜像网址:

 
     
      alimaven
      aliyun maven
      http://maven.aliyun.com/nexus/content/groups/public/
      central        
    
  

另外还要将spark根目录下的pom文件中的仓库地址替换为阿里云:


    
    
            aliyun
            aliyun
            http://maven.aliyun.com/nexus/content/groups/public/
            default
            
                true
                never
            
            
                true
                never
            
        
  
  
   
    	
            aliyun
            aliyun
            http://maven.aliyun.com/nexus/content/groups/public/
            
                true
            
            
                false
            
        
  

最后,需要将pom文件中的maven版本替换为本机的maven版本号:

  3.5.4

源码导入

编译成功后,可以将源码导入IDEA:

import project——》Maven——》next

然后一直next即可,需要注意的是,我们需要配置好IDEA中项目的maven的配置以及修改默认仓库地址。

Spark源码阅读之环境配置(Windows)_第1张图片

 

Spark源码阅读之环境配置(Windows)_第2张图片

测试实例

首先导入编译后的jar包:

参考博客https://blog.csdn.net/do_yourself_go_on/article/details/73129408

选择spark项目下的example下的SparkPi测试实例,首先配置运行VM参数:

Spark源码阅读之环境配置(Windows)_第3张图片

-Dspark.master=local

 

你可能感兴趣的:(Spark,Spark源码阅读,spark)