windows下spark开发环境配置

--本篇随笔由同事葛同学提供。

windows下spark开发环境配置

特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe、hadoop.dll等文件,前提是你已经安装了eclipse、maven、jdk等软件

spark支持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8

 

我选择的spark是spark-1.4.0-bin-hadoop2.6.tgz,故以该版本为例

 

第一步:下载spark-1.4.0-bin-hadoop2.6.tgz到本地,并解压在本地目录

地址为:http://spark.apache.org/downloads.html

 

第二步:下载windows下hadoop工具包(分为32位和64位的),在本地新建一个hadoop目录,必须有 bin目录例如:D:\spark\hadoop-2.6.0\bin

然后将winutil等文件放在bin目录下

地址:https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin

 

 

 

第三步:配置hadoop和spark的环境变量:

HADOOP_HOME 例如:D:\spark\hadoop-2.6.0

 

  SPARK_HOME

 

SPARK_CLASSPATH

 

path中加入spark和hadoop

 

 

至此,在cmd命令下输入spark-shell 至此windows下配置ok了

 

 

 

搭建自己的spark maven项目hello world程序

对于已经安装了eclipse环境的程序员来说,不用再单独安装saprk的开发环境,由于spark是基于scala语言的,所以如果要想看源代码,需要安装scala的eclipse插件

第一步:安装scala的eclipse插件

地址:http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site

 

 

 

第一步:创建自己的spark maven项目

勾选create a simple project

 windows下spark开发环境配置_第1张图片

 

第二步:选则maven生成的包,这里一定要选这jar,因为spark程序一般是打包为jar包的

其他必填自己按需填

 windows下spark开发环境配置_第2张图片

 

第三步:添加spark的jar包到刚才新建的maven项目中

找到集群安装的spark安装目录,在lib目录下会看到

 windows下spark开发环境配置_第3张图片

将加到maven项目的build path下

 windows下spark开发环境配置_第4张图片

第四步:pom中添加自己的spark,hadoop maven依赖

例如:

   

            org.apache.spark

            spark-core_2.10

            1.5.2

       

       

        org.apache.spark

        spark-sql_2.10

        1.5.2

       

       

            org.apache.hadoop

            hadoop-client

            1.2.0

       

 

第五部:spark程序的入口是main函数,至此可以编写自己的hello world并让它跑起来和调试

public class SparkMain implements Serializable {

  

   public static void main(String[] args) throws Exception {

      //编写自己的spark程序        

System.out.println(“hello spark!”);

}

   }

Now everything is ready for you to run your main Class. Enjoy!

你可能感兴趣的:(idea&git的使用学习)