spark离线大数据运算程序编译

1.到github 中下载 ckmcluster 源码。


2.在widows机器上安装maven.3.2.7,和jdk 1.7_x64  ,scala2.10.4,sbt0.13.12  并


且都配置好环境变量。
例如:
JAVA_HOME=C:\Java\jdk1.7.0_55_x64
M2_HOME=C:\maven3.2.1\apache-maven-3.2.1
SCALA_HOME=C:\scala2.10.4
SBT_HOME=C:\Program Files (x86)\sbt


path=%JAVA_HOME%\bin;%M2_HOME%\bin;%SBT_HOME%\bin;%SCALA_HOME%\bin


3.下载IntelliJ IDEA 社区版,并且将ckm项目源码以maven 项目的方式导入到idea中,


让idea下载所有需要的jar包,如果pom有错误,需要逐一解决下载不了的jar包,方法有


手动上互联网上去下载对应的jar包,放入pom指定的路径中(该路径的根目录是maven 


的jar仓库),确定所有的jar包都不缺少,并且pom没有报错,然后利用mvn进行编译和


打打包。




4.在cmd 中cd 进入源码所在的目录  D:\ckmcluster-master 下,然后利用mvn命令进行


打包和编译
mvn compile     编译
mvn  -Dmaven.test.skip=true   compile     忽略测试编译
mvn  -Dmaven.test.skip=true   package     忽略测试打包 或者 mvn package -


DskipTests

打好的包会在target 目录中。
到这步,ckmcluster 就可以使用了。

使用方法:

1.将jar包提交到jobserver 中 

提交方法如下:

编译完成后,将打包的jar文件通过REST接口上传
REST接口的API如下:
GET /jobs 查询所有job
POST /jobs 提交一个新job
GET /jobs/ 查询某一任务的结果和状态
GET /jobs//config

 

curl --data-binary @/opt/runjar/ckmcluster-1.0-SNAPSHOT-jar-with-dependencies.jar localhost:8090/jars/develop_ckmcluster

curl --data-binary @/opt/runjar/ckmcluster-1.0-SNAPSHOT-jar-with-dependencies.jar localhost:8090/jars/test_ckmcluster

curl --data-binary @/opt/runjar/ckmcluster-1.0-SNAPSHOT-jar-with-dependencies.jar localhost:8090/jars/formal_ckmcluster


2.在其他项目的代码中会有调度程序,将任务送到spark队列中,进行聚类。

你可能感兴趣的:(spark离线大数据运算程序编译)