spark入门实战windows本地测试程序

        在做Spark开发时,一般会在windows下进行Spark本地模式程序调试,在本地调试好了再打包运行在Spark集群上。因此需要在windows上进行Spark开发配置。本文将给出三种开发工具的配置:1、使用eclipse java api开发;2、使用scala IDE开发;3、使用IntelliJ IDEA 开发。

1、windows下环境

在安装开发软件之前,首先需要安装JAVA 和SCALA,并且配置好环境变量。

2、java开发spark程序

1)                     下载eclise软件,下载地址:http://www.eclipse.org/downloads/packages/eclipse-ide-java-developers/mars2  尽量下载最新的,而且自带maven的eclipse

2)                     打开eclipse软件,创建maven项目:

点 击 file ->new ->others ->maven project 点 击 next ,

 选 择maven-archetype-quickstart ,点击 next,

group id 为 com.dt.spark,artifact id 为sparkApps,

然后点击 finish。

3)                     修改JDK和pom文件

创建 maven 项目后,默认的 jdk 是 1.5 要改成我们前面安装好的 jdk1.8 。在项目上右击 build path ->configure build path 。 在弹出页面点击 Libraries,选中 jre system library 。点击 edit,在弹出框选择 workspace default jre ,然后点击 finish。然

后在点击 ok。将 pom 文件修改为如下内容,然后等待 eclipse 下载好 maven 依赖的 jar 包, 并编译工程。 编译好工程后有个错误提示, 在此错误列上, 右击选择 quick fix ,在弹出页面点击 finish 即可。

4)                     Pom文件内容(很重要):

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0

http://maven.apache.org/xsd/maven-4.0.0.xsd">

4.0.0

com.dt.spark

SparkApps

0.0.1-SNAPSHOT

jar

SparkApps

http://maven.apache.org

UTF-8

junit

junit

3.8.1

test

org.apache.spark

spark-core_2.10

1.6.0

org.apache.spark

spark-sql_2.10

1.6.0

org.apache.spark

spark-hive_2.10

1.6.0

org.apache.spark

spark-streaming_2.10

1.6.0

org.apache.hadoop

hadoop-client

2.6.0

org.apache.spark

spark-streaming-kafka_2.10

1.6.0

org.apache.spark

spark-graphx_2.10

1.6.0

src/main/java

src/main/test

maven-assembly-plugin

jar-with-dependencies

make-assembly

package

single

org.codehaus.mojo

exec-maven-plugin

1.3.1

exec

java

false

compile

com.dt.spark.SparkApps.WordCount

org.apache.maven.plugins

maven-compiler-plugin

1.6

1.6

         将内容编辑好了之后点击保存,编译器会自动下载spark程序运行所需要的所有依赖,这个阶段下载时间比较长(时间跟网速有关)。

5)                     创建包和java 类

在包路径 com.dt.spark.SparkApps 上 右击 new ->package 在弹出页面 name 中填写 com.dt.spark.SparkApps.cores,点击 finish 的。在包路径下 com.dt.spark.SparkApps.cores 上 右击 new ->class ,在弹出窗口中name 中填写 WordCount ,点击 finish。然后在 WordCount 中编写如下代码。

6)                     代码详细

spark入门实战windows本地测试程序_第1张图片spark入门实战windows本地测试程序_第2张图片spark入门实战windows本地测试程序_第3张图片spark入门实战windows本地测试程序_第4张图片spark入门实战windows本地测试程序_第5张图片

 

 

         Ps:看不清楚可以把图片放大看,这里详细说明了WordCount 的spark程序的每一步。

       按照上述的操作并完成程序运行时可能会出的异常:

A、  出现没有找到hadoop的异常可以不用管,因为我们是在本地模式下调试程序,不需要hadoop平台也没有hadoop环境,如程序调试ok,打包后可以运行在spark集群上。

B、 java.lang.IllegalArgumentException:System memory 259522560 must be at least 4.718592E8. Please use a larger heapsize.。这是JVM申请的memory不够导致这个异常的处理方式: Window——Preference——Java——Installed JREs——选中一个Jre 后 Edit在DefaultVM arguments 里加入:-Xmx512M

3、IDE开发spark程序

1)下载Scala IDE for Eclipse 软件http://scala-ide.org/download/sdk.html4.4.1版本

直接下载最新版就可以了。

2)下载完成后解压,然后直接找到eclipse.exe文件点击打开,注意:系统中必须要有java和scala环境。

3)新建工程:

New àscala project à输入project nameà一直默认点击nextàfinsh。工程名字叫:WordCount

4)修改默认依赖的scala2.11.7版本为2.10.6(就是你windows下安装的scala版本)

点击工程名WordConut右击à点击propertiesàScala Compilesà选中Use Project Settingsà点击Scala Installationà选中Lastest 2.10 bundle(*)àApplyàok。

5)加入spark的jar依赖

首先在windows下下载spark-1.6.0-bin-hadoop2.6.tgz,解压后找

到Spark-assembly-1.6.0-hadoop2.6.0.jar。然后在eclipse中加入这个jar

到libraries中。

6)新建package包和scala class 类(过程略)然后开始编程,程序如下:

   spark入门实战windows本地测试程序_第6张图片spark入门实战windows本地测试程序_第7张图片spark入门实战windows本地测试程序_第8张图片spark入门实战windows本地测试程序_第9张图片

以上就是通过scala对应的eclipse软件开发的spark wordConut程序的详细过程。在运行程序时出现的异常参考第2小节的异常处理方式。

4、IDEA开发spark程序

1)下载地址http://www.jetbrains.com/idea/download/尽量下载最新版本。本人下载的是windows,也可以下载linux。

2)下载好之后,按照一般软件的安装方法进行正确安装。

注意:当界面出现选择插件安装的时候,需要安装scala,点击Install,然后会下载安装,这里需要等待一会,时间看自己的网速。

3)安装插件完成后,点击Create New Project 新建工程,选择ScalaàscalaàNextà输入工程名,选择JDK路径,选择Scala的SDK路径àokà等待软件自动建立索引。

4)点击FileàProject Structure设置工程的Libraries。核心是添加Spark的jar依赖。点击左上角的“+”选择Spark-assem导入bly-1.6.0-hadoop2.6.0.jar包。导入过程中也需要等待一会。

5)创建package包和scala类,然后编程序。程序的内容和上一节中在Scala IDE编写的程序完全一样。

Ps:出现java.lang.IllegalArgumentException: System memory 259522560 must be at least4.718592E8. Please use a larger heap size.异常时,解决方案:设置应用程序的 VMoptions。IDEA的设置路径在:Run àEdit ConfigurationsàApplication选择对应的程序,设置VM options:-Xmx512M。

你可能感兴趣的:(spark学习)