数据清洗-scala环境部署及抽数流程

1.下载scala-ide, 下载地址:http://www.scala-lang.org/download/   或者  http://scala-ide.org/download/sdk.html

2. 完成scala-ide的安装


双击eclipse.exe完成安装

3. 安装完成后新建project

相继点击 “File-New-Project”进入下图界面


选择scala project,点击下一步


project命名及路径设置


点击 open perspective

4. 右键点击已经新建的project,进入新建package页面


为新建的package命名,后缀为etl

5. 右键点击新建好的package,新建scala文件


右键点击test.etl新建file

6. 为project(TEST_ONE)设置properties(右键TEST_ONE)


点击新增外部的jars


添加spark环境集成jar包

7. 在上图中的scala compiler选择 scala安装版本


选择安装的scala版本并应用关闭

8.开始编写scala程序


只有导入上面图中spark集成jar包后,这里的import语句才会生效


9. 编写完成后导出jar包

右键点击刚才编写好的scala文件,并点击export,进入下图:


选择JAR file,点击下一步


设置好jar包存放路径点击完成即可

10. 将jar包存放到相应的服务器目录,即可用相关命令调用spark-shell,开始抽数。

(1)点击进入xshell5(视相应的环境而定)

(2)点击新建文件传输,将文件传输到相应的服务器目录(视相应的环境而定)


新建文件传输

(3)建立对应的表结构,运行spark shell命令语句

spark-submit --queue root.spark --conf spark.sql.shuffle.partitions=1 --total-executor-cores= m --executor-memory=xg --driver-memory=xg --class test.etl.test.jar 参数 参数  (m,x,x为相应大小数字,视相应环境而定)

你可能感兴趣的:(数据清洗-scala环境部署及抽数流程)