Apache Spark MLlib学习笔记(四)Intellij上部署Spark源码

源码分析是一件工作量很大的工作,尤其是spark这样的大工程,因此一定要使用IDE才能较好的理顺各个类的关系。看别人经验,都推荐使用intelliJ编辑器。在此也要介绍一下ubuntu系统下spark在intelliJ上的部署。

1,配置java和scala开发环境
spark依赖java和scala环境,因此要先安装JDK,具体方法可以参看以前的一篇博客。

2,安装intellij
首先去官网下载安装包,地址是:
http://www.jetbrains.com/idea/download/
只用下载免费版就可以了。下载完毕后,解压到安装目录,进入目录,可以看到idea.sh文件,输入

sh idea.sh

就可以运行。相关的使用可以看看官方文档:
http://wiki.jetbrains.net/intellij/Installing_and_running_IntelliJ_IDEA_on_Ubuntu
intelliJ提供了丰富的快捷键,你可以在以下网址找到:
http://www.jetbrains.com/idea/docs/IntelliJIDEA_ReferenceCard.pdf

3,安装scala开发插件
intellij提供了scala插件,可以方便的进行scala开发,在intelliJ界面依次“Configure”–> “Plugins”–> “Browse repositories”,可以弹出插件选择界面,输入scala,选择scala进行安装,安装完毕后重启编辑器即可。

4,下载spark源码
在github上可以找到spark源码,地址是:
https://github.com/apache/spark
在右侧可以看到git链接:
https://github.com/apache/spark.git
在命令行输入:

git clone https://github.com/apache/spark.git

下载完后可以看到spark文件夹。如果没有安装git工具需要提前安装,方法是在终端中输入:

sudo apt-get install git

耐心等待下载,安装后即可使用git相关命令。

5,在intelliJ上部署spark源码
首先打开intelliJ,点击File->Import Project,选择Maven project,选择刚才下载完毕的spark文件夹。
一定要勾选Import Maven projects automatically方框。之后可以看到工程目录。
相关的官方文档可以在以下网址找到:
https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark#ContributingtoSpark-IntelliJ

你可能感兴趣的:(apache,源码,spark)