以下内容执行的前提是你的电脑安装了scala。
注:开头包含类似package声明的scala代码直接在scala命令行用:load指令加载会出错。如果在scala命令行想调用自己在ide写好的类时(大多数情况下你的类会用到外部包,比如spark之类的),怎么办呢?有三种方法:
- 将你在ide写好的project在scala下进行编译,之后通过Main调用
- 打包整个项目为jar,通过
scala -classpath
加载后,在scala中import进行调用 - 去掉package声明,并且将依赖包通过
scala -classpath
加载后,再使用:load 加载你的类
下面着重讲编译的方法:
项目的结构
src
|--com
|--xzj
|--process
|--Main.scala
|--NAStatsCounter.scala
NAStatsCounter.scala内容
注:package com.xzj.process 是你的包的结构(单独编译时包的声明也可以去掉,但是如果要将整个project打包成jar的形式或者编译整个src时,需要有这一行,不然包之间的引用会出错)
package com.xzj.process
import org.apache.spark.util.StatCounter
class NAStatsCounter extends Serializable {
val stats: StatCounter = new StatCounter()
var missing: Long = 0
def add(x: Double): NAStatsCounter = {
if (java.lang.Double.isNaN(x)) {
missing += 1
} else {
stats.merge(x)
}
this
}
def merge(other: NAStatsCounter): NAStatsCounter = {
stats.merge(other.stats)
missing += other.missing
this
}
override def toString = {
"stats: " + stats.toString + "NaN: " + missing
}
}
object NAStatsCounter extends Serializable {
def apply(x: Double) = new NAStatsCounter().add(x)
}
Main.scala内容:
package com.xzj.process
object Main {
def main(args: Array[String]) {
var testArray = Array(11.1, 12.1, 13.2, Double.NaN)
var test2 = Array(11, 3, 22.1, Double.NaN, 0)
var testc = testArray.map(c => NAStatsCounter(c))
var testc2 = test2.map(NAStatsCounter(_))
var list = testc.zip(testc2)
list.map {
case (a, b) => a.merge(b)
}
list.foreach(println)
}
}
由于NAStatsCounter.scala文件依赖外部包 spark-assembly-1.5.1-hadoop2.6.0.jar,在编译时需要通过classpath指令指明将依赖包。
编译src下的scala:
scalac -classpath lib/spark-assembly-1.5.1-hadoop2.6.0.jar -d classes src/com/xzj/process/*
含义:
- scalac:scala的编译器
- -classpath:指明外部依赖包
- -d:指明 编译后的输出文件 要放到哪里,这里把编译结果放在classes文件下
- 最后指明需要编译的scala文件(该例子是整个目录)。
编译完成后,classes文件夹下面就会有相应的.class文件,且里面有目录结构 com/xzj/process ,就是根据之前的包声明生成的。接下来可以运行了:
scala -classpath classes:lib/spark-assembly-1.5.1-hadoop2.6.0.jar com.xzj.process.Main
Main 函数依赖 NAStatsCounter,NAStatsCounter 依赖spark包,所以这里要加入两个路径。这里 classpath参数变成 classes:lib/spark-assembly-1.5.1-hadoop2.6.0.jar ,表示两个classpath,因为classpath是用冒号分隔的。
总结:
自己进行编译和运行是比较原生的方法,有利于你了解像eclipse这种ide是怎么运行程序的。但如果包依赖比较复杂,这种方法容易出错。建议打包成 jar ,之后通过import调用。也可以将外部依赖包加入scala,同时去掉开头的包声明,通过import 进依赖包,再Scala>:load 进NAStatsCounter.scala 代码,就可以调用NAStatsCounter类进行统计操作啦。