基于scala的spark开发环境搭建流程

开发工具

idea

项目管理工具

Maven

搭建步骤

参考链接:

https://blog.csdn.net/u013963380/article/details/72677212

1)环境配置

jdk1.8.0_231

scala2.11.12

2)安装工具

需要安装idea、scala、java、maven。具体安装步骤参考线上文档。

3)创建工程

File->new project

注意:如果是第一次利用maven构建scala开发spark环境的话,这里面的会有一个选择scala SDK和Module SDK的步骤,这里路径选择你安装scala时候的路径和jdk的路径就可以了。


基于scala的spark开发环境搭建流程_第1张图片

填写相应名称

GroupId:一般分为多个段,这里我只说两段,第一段为域,第二段为公司名称。域又分为org、com、cn等等许多,其中org为非营利组织,com为商业组织。举个apache公司的tomcat项目例子:这个项目的groupId是org.apache,它的域是org(因为tomcat是非营利项目),公司名称是apache,artigactId是tomcat。

ArtifactId:为项目名称。


基于scala的spark开发环境搭建流程_第2张图片

选择maven

首先是你的Intellij IDEA里有Maven,一般的新版本都会自带maven,而且maven的目录在IDEA安装路径下plugins下就能找到,然后再Maven home directory地址中填写maven相对应的路径,然后这里面的User settings file是你maven路径下conf里面的settings.xml文件,勾选上override,可以进行覆盖和修改。

本次将对xml进行修改,主要修改对应的maven库和增加国内仓库,具体如下:


以下截图为修改部分。

基于scala的spark开发环境搭建流程_第3张图片
基于scala的spark开发环境搭建流程_第4张图片

Local repository:制定本地仓库位置。可以前期下载需要的依赖文件,这样可以避免在线下载需要的时间。

基于scala的spark开发环境搭建流程_第5张图片

点击finish后完成项目的创建。

4)目录结构配置

查看目录结构

将原始的App文件和对应test目录的文件删除


基于scala的spark开发环境搭建流程_第6张图片

注意当idea出现以下提示时


基于scala的spark开发环境搭建流程_第7张图片

需要点击setup scala sdk,然后选择对应的scala进行加载


基于scala的spark开发环境搭建流程_第8张图片

将scala 目录标记为source 目录


基于scala的spark开发环境搭建流程_第9张图片

修改pom.xml

注意将groupId 和groupId 改为自己项目对应的名字

对于各个字段的说明可以参考文档:https://www.runoob.com/maven/maven-pom.html

4.0.0 com.sportsdt testProject 1.0-SNAPSHOT 2008 2.4.0-cdh6.3.2 3.0.0-cdh6.3.2 2.1.0-cdh6.3.2 org.scala-lang scala-library 2.11.12 org.apache.spark spark-core_2.11 2.4.0-cdh6.3.2 org.apache.spark spark-sql_2.11 ${spark.version} org.apache.spark spark-hive_2.11 ${spark.version} cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ net.alchim31.maven scala-maven-plugin 3.2.2 org.apache.maven.plugins maven-compiler-plugin 3.5.1 net.alchim31.maven scala-maven-plugin scala-compile-first process-resources add-source compile scala-test-compile process-test-resources testCompile org.apache.maven.plugins maven-compiler-plugin compile compile org.apache.maven.plugins maven-shade-plugin 2.4.3 package shade *:* META-INF/*.SF META-INF/*.DSA META-INF/*.RSA

5)创建scala object

在对应package点击鼠标右键,选择scala class


基于scala的spark开发环境搭建流程_第10张图片

选择object


基于scala的spark开发环境搭建流程_第11张图片

编写简单的语句


基于scala的spark开发环境搭建流程_第12张图片

5)对项目进行打包

Maven->lifecycle->package


基于scala的spark开发环境搭建流程_第13张图片

打包文件生成在以下位置:


基于scala的spark开发环境搭建流程_第14张图片

6)到集群去试运行。

执行语句如下:

spark-submit--packages mysql:mysql-connector-java:5.1.47 --repositorieshttp://maven.aliyun.com/nexus/content/groups/public/ --driver-class-path~/jar/mysql-connector-java-5.1.47.jar --class sportsdt.middle_platform.odds.Odds   ~/jar/MyFirstScala-1.0-SNAPSHOT.jar

说明如下:

Packages:需要引用的包

Repositories:包对应的仓库

driver-class-path:驱动所在路径

class 程序入口

最后加上打包的文件位置


 

你可能感兴趣的:(基于scala的spark开发环境搭建流程)