其实Spark的构建已经做得很好了,但是由于大家已知的原因,很多东西不能很顺利的拿到。估计你要给老外说花了很多时间在build Spark上面,他只有一个反应“unbelievable”。
在这里特别要感谢一下OSChina,它的Maven库的存在,使得在国内从源代码构建Spark成为可能。
如果碰到什么问题的话,是这篇文章没有覆盖到的话,请大家给我简信或者留言。我会尽自己所能给大家解决。
下面开始言归正传。
下面的软件安装完成之后,都确保路径添加到系统环境变量PATH里面去了。
检查方法:设置好之后,启动windows cmd, 敲入命令,看看能不能找到。
Scala: scala -version
SBT: sbt -version
Maven: mvn -version
Git: git --version
Maven
SBT可以重用Maven的依赖库。我们使用Maven,可以方便地从OSChina下载Spark需要的相关依赖。
在Maven的安装目录之下,conf文件下面有个settings.xml文件,备份一下这个文件,然后对着下面进行修改。修改的主要目的是添加OSChina的镜像进来。
<mirrors>
<mirror>
<id>nexus-oscid>
<mirrorOf>centralmirrorOf>
<name>Nexus oscname>
<url>http://maven.oschina.net/content/groups/public/url>
mirror>
<mirror>
<id>nexus-osc-thirdpartyid>
<mirrorOf>thirdpartymirrorOf>
<name>Nexus osc thirdpartyname>
<url>http://maven.oschina.net/content/repositories/thirdparty/url>
mirror>
mirrors>
Git
Git可以用来下载Spark源代码,在用SBT或者Maven编译的过程中,也需要Git去从Github下载一些依赖的东西。
关于IDE的选择,一开始我使用的Scala-IDE,占用内存太多。设置了两个断点就慢的不行,基本没有办法单步调试。
尝试IDEA之后,毫不犹豫地抛弃了Scala-IDE.
IDEA优点如下:
- 界面更精简
- 运行期间占用内存小
- 切换到SBT之后,编译速度快。
- 支持更好。毕竟是商业软件,一般问题都可以从官方的网站,论坛里面找到解决方案。
本文中使用的具体版本:
C:\Users\spark>scala -version
Scala code runner version 2.10.6 -- Copyright 2002-2013, LAMP/EPFL
C:\Users\spark>java -version
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)
C:\Users\spark>sbt -version
[info] Set current project to km (in build file:/C:/Work/Code/ACE/3.0/km/)
[warn] The `-` command is deprecated in favor of `onFailure` and will be removed in 0.14.0
C:\Users\spark>mvn -version
Apache Maven 3.3.3 (7994120775791599e205a5524ec3e0dfe41d4a06; 2015-04-22T19:57:37+08:00)
Maven home: C:\Program Files\apache-maven-3.3.3\bin\..
Java version: 1.7.0_79, vendor: Oracle Corporation
Java home: C:\Program Files\Java\jdk1.7.0_79\jre
Default locale: en_US, platform encoding: GBK
OS name: "windows 7", version: "6.1", arch: "amd64", family: "windows"
C:\Users\spark>git --version
git version 2.6.3.windows.1
# Master development branch
git clone git://github.com/apache/spark.git
# 1.5 maintenance branch with stability fixes on top of Spark 1.5.2(本文中使用的)
git clone git://github.com/apache/spark.git -b branch-1.5
步骤如下:
C:\Users\spark>set MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m
C:\Users\spark>mvn -DskipTests clean package
编译中需要下载很多东西,耐心等候。成功之后:
[INFO] Spark Project Parent POM ........................... SUCCESS [ 29.999 s]
[INFO] Spark Project Test Tags ............................ SUCCESS [ 19.688 s]
[INFO] Spark Project Launcher ............................. SUCCESS [ 29.203 s]
[INFO] Spark Project Networking ........................... SUCCESS [ 22.105 s]
[INFO] Spark Project Shuffle Streaming Service ............ SUCCESS [ 13.525 s]
[INFO] Spark Project Unsafe ............................... SUCCESS [ 37.206 s]
[INFO] Spark Project Core ................................. SUCCESS [07:42 min]
[INFO] Spark Project Bagel ................................ SUCCESS [ 18.502 s]
[INFO] Spark Project GraphX ............................... SUCCESS [01:20 min]
[INFO] Spark Project Streaming ............................ SUCCESS [02:38 min]
[INFO] Spark Project Catalyst ............................. SUCCESS [04:11 min]
[INFO] Spark Project SQL .................................. SUCCESS [04:59 min]
[INFO] Spark Project ML Library ........................... SUCCESS [04:58 min]
[INFO] Spark Project Tools ................................ SUCCESS [ 16.661 s]
[INFO] Spark Project Hive ................................. SUCCESS [05:56 min]
[INFO] Spark Project REPL ................................. SUCCESS [ 56.534 s]
[INFO] Spark Project Assembly ............................. SUCCESS [02:35 min]
[INFO] Spark Project External Twitter ..................... SUCCESS [ 34.803 s]
[INFO] Spark Project External Flume Sink .................. SUCCESS [ 27.097 s]
[INFO] Spark Project External Flume ....................... SUCCESS [ 40.341 s]
[INFO] Spark Project External Flume Assembly .............. SUCCESS [ 5.210 s]
[INFO] Spark Project External MQTT ........................ SUCCESS [01:00 min]
[INFO] Spark Project External MQTT Assembly ............... SUCCESS [ 29.437 s]
[INFO] Spark Project External ZeroMQ ...................... SUCCESS [01:06 min]
[INFO] Spark Project External Kafka ....................... SUCCESS [01:03 min]
[INFO] Spark Project Examples ............................. SUCCESS [04:33 min]
[INFO] Spark Project External Kafka Assembly .............. SUCCESS [ 11.513 s]
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 48:43 min
[INFO] Finished at: 2015-11-18T14:04:25+08:00
[INFO] Final Memory: 395M/1591M
[INFO] ------------------------------------------------------------------------
安装好IDEA之后,还需要下面这些步骤。
File-->Settings-->Plugins-->Install JetBrains plugin
File-->Build,Execution,Deployment-->Build Tools-->SBT
File-->Build,Execution,Deployment-->Build Tools-->Maven
File-->Build,Execution,Deployment-->Build Tools-->Maven-->Runner
VM Options 加入如下参数
-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m
JRE
设置成自己想要的Java版本
File-->Settings-->Build,Execution,Deployment-->Compiler-->Scala Compiler
File-->Settings-->Languages & Frameworks-->Scala Compile Server
File-->New-->Project From Existing Source-->选择你自己的Spark目录-->Import project from external model-->Maven ,然后一路Next,耐心等待一切完成。
Build-->Make Project 或者 Ctrl + F9
开始你的Spark之旅吧!
View-->Tool Windows-->Maven Projects-->Reimport All Maven Projects-->Spark Project External Flume Sink-->LifeCycle-->Install-->右键Maven build
或者
View-->Tool Windows-->Maven Projects-->Reimport All Maven Projects-->Spark Project External Flume Sink-->右键 Generate Sources and Update Folders
原因:EventBatch.java,SparkFlumeProtocol.java 和 SparkSinkEvent.java是由maven的avro 插件在build过程中间生成的。
如果那个Module出现java.lang.NoClassDefFoundError
在Project Structure-->Modules-->对应的Module-->Dependencies-->Scope, 从provided 改为compile
Error:scalac:
View-->Tool Windows-->Maven Projects-->Reimport All Maven Projects-->选中出问题的模块-->Lifecycle-->clean-->右键Run Maven Build
然后Ctrl + F9
error java invalid source release 1.8 in intellij
问题出在Java8 Tests 这个模块,主要用来测试Java8的。如果你用的是java 1.8,应该不会碰到这个问题。
1.7的话,很简单,直接忽略掉这个Project就可以了。
View-->Tool Windows-->Maven Projects-->Reimport All Maven Projects-->Spark Project Java8 Tests POM-->右键Ignore projects
感谢下面的这些作者的创作和分享,他们的文章给了我很多的帮助。自己写过一篇之后,才知道写文章是一件多么不容易的事情。正因为如此,他们的无私奉献才更显珍贵。
Build Spark-1.4.1 on Linux with Scala 2.10.5
spark-1.4.1源码Intellij IDEA编译错误TestSQLContext.scala assertion failed
Windows 下搭建 Spark 源代码阅读环境
【Spark十五】Intellj Idea搭建Spark源代码开发环境
Spark 源码和应用开发环境的构建
Spark Build Spark
IntelliJ IDEA 15.0 Help
import Spark source code into intellj, build Error: not found: type SparkFlumeProtocol and EventBatch
IntelliJ Runtime error