maven环境下使用java、scala混合开发spark应用

在IDEA 14.1中新建maven工程spark-graphx-test

然后找到:File->Project Structure->Project Settings->Modules->Sources->src->main 右键点击New Folder,新建scala目录,然后选中scala,点击Sources。此步骤完成新建一个scala目录,并把此目录作为和java目录并列的源文件目录。

然后找到:File->Project Structure->Project Settings->Libraries->+->Scala SDK 选择Maven 2.10.4这个版本。此步骤完成后就可以在此Maven工程的scala源目录中新建scala对象和类。

然后在IDEA界面上选中spark-graphx-test工程的java目录,右键点击New->Package,可以新建包,如新建com.baifendian.spark.graphx.common包

然后选中com.baifendian.spark.graphx.common包,右键点击New->Java Class,可以新建java类,如新建XmlInputFormat这个java类

然后选中IDEA界面上选中spark-graphx-test工程的scala目录, 右键点击New->Package,可以新建包,如新建com.baifendian.spark.graph.preprocessor包

然后选中com.baifendian.spark.graph.preprocessor包,右键点击New->Scala Class,kind选择Object, 可以新建Scala Object,如新建GraphXTest这个scala对象

然后选中IDEA界面上选中spark-graphx-test工程的pom.xml文件,在其中添加XmlInputFormat.java和GraphXTest.scala所依赖的包声明

       

                    

               org.apache.spark            

               spark-core_2.10            

               1.3.1        

                 

                      

               org.apache.hadoop            

               hadoop-client            

               2.4.0        

                     

                      

             com.google.guava            

             guava            

             11.0.2        

                   

                        

              commons-io            

              commons-io            

               2.4        

              

    

此步骤完成工程的目录结构已经建立,所依赖的sdk,源码所依赖的maven包已经配置好。

然后在菜单File->Settings->Build,Execution,Deployment->Build Tools->Maven->Importing中选择Import Maven projects automatically。此步骤会在build的时候自动导入pom.xml中配置的依赖jar包

然后找到菜单Build->Rebuild Project,重新build整个工程,系统无错误提示,只剩下编代码了。

然后在XmlInputFormat中编码完成,在GraphXTest中编码完成。

然后找到菜单Build->Rebuild Project,重新build整个工程。至此我们已经可以在IDEA中进行java和scala代码开发。

然后需要把开发的代码导出在spark中使用,下面是导出过程。

然后在菜单File->Project Structure->Project Settings->Artifacts->+->JAR

对于JAR的选项“Empty”,作用是把工程代码导出为jar,并且不带依赖。 比如建立Empty的JAR,Name为spark-graph-test,输出目录为F:\ideworkspace\spark-graphx-test\out\artifacts\spark_graphx_test。在Output Layout中左边显示spark-graphx-test,并且下面无内容。右边Available Elements为可添加到左边spark-graphx-test对应的导出jar中的内容。双击“spark-graph-test compile output”,则左边出现“spark-graph-test compile output”然后点击OK关闭窗口。在菜单Build->Build Artifacts中选择spark-graph-test,Build。执行完毕在F:\ideworkspace\spark-graphx-test\out\artifacts\spark_graphx_test目录中可以找到生成的spark-graphx-test.jar。此jar包较小,适用于spark交互式环境需要临时导入的jar包。

对于JAR的选项“From modules with dependencies”,Name可设为spark-graphx-test-with-dependencies,输出目录为F:\ideworkspace\spark-graphx-test\out\artifacts\spark_graphx_test_with_dependencies,然后点击OK关闭窗口。在菜单Build->Build Artifacts中选择spark-graphx-test-with-dependencies,Build。执行完毕在F:\ideworkspace\spark-graphx-test\out\artifacts\spark-graphx-test-with-dependencies目录中可以找到生成的spark-graphx-test-with-dependencies.jar。此jar包比较大,适用于需要提交jar包到spark集群中运行的情况

你可能感兴趣的:(e')