Scala编译和运行

以下内容执行的前提是你的电脑安装了scala。

注：开头包含类似package声明的scala代码直接在scala命令行用:load指令加载会出错。如果在scala命令行想调用自己在ide写好的类时（大多数情况下你的类会用到外部包，比如spark之类的），怎么办呢？有三种方法：

将你在ide写好的project在scala下进行编译，之后通过Main调用
打包整个项目为jar，通过scala -classpath加载后，在scala中import进行调用
去掉package声明，并且将依赖包通过scala -classpath加载后，再使用：load 加载你的类

下面着重讲编译的方法：

项目的结构

src

 |--com

     |--xzj

          |--process

               |--Main.scala

               |--NAStatsCounter.scala

NAStatsCounter.scala内容

注：package com.xzj.process 是你的包的结构（单独编译时包的声明也可以去掉，但是如果要将整个project打包成jar的形式或者编译整个src时，需要有这一行，不然包之间的引用会出错）

package com.xzj.process
import org.apache.spark.util.StatCounter
class NAStatsCounter extends Serializable {

  val stats: StatCounter = new StatCounter()
  var missing: Long = 0

  def add(x: Double): NAStatsCounter = {

    if (java.lang.Double.isNaN(x)) {
      missing += 1
    } else {
      stats.merge(x)
    }
    this
  }

  def merge(other: NAStatsCounter): NAStatsCounter = {
    stats.merge(other.stats)
    missing += other.missing
    this
  }

  override def toString = {
    "stats: " + stats.toString + "NaN: " + missing
  }
}

object NAStatsCounter extends Serializable {
  def apply(x: Double) = new NAStatsCounter().add(x)
}

Main.scala内容：

package com.xzj.process
object Main {
  def main(args: Array[String]) {

    var testArray = Array(11.1, 12.1, 13.2, Double.NaN)
    var test2 = Array(11, 3, 22.1, Double.NaN, 0)

    var testc = testArray.map(c => NAStatsCounter(c))
    var testc2 = test2.map(NAStatsCounter(_))
    var list = testc.zip(testc2)
    list.map {
      case (a, b) => a.merge(b)
    }
    list.foreach(println)
  }

}

由于NAStatsCounter.scala文件依赖外部包 spark-assembly-1.5.1-hadoop2.6.0.jar，在编译时需要通过classpath指令指明将依赖包。

编译src下的scala：

scalac -classpath lib/spark-assembly-1.5.1-hadoop2.6.0.jar -d classes src/com/xzj/process/*

含义：

scalac：scala的编译器
-classpath：指明外部依赖包
-d：指明编译后的输出文件要放到哪里，这里把编译结果放在classes文件下
最后指明需要编译的scala文件（该例子是整个目录）。

编译完成后，classes文件夹下面就会有相应的.class文件，且里面有目录结构 com/xzj/process ，就是根据之前的包声明生成的。接下来可以运行了：

scala -classpath classes:lib/spark-assembly-1.5.1-hadoop2.6.0.jar com.xzj.process.Main

Main 函数依赖 NAStatsCounter，NAStatsCounter 依赖spark包，所以这里要加入两个路径。这里 classpath参数变成 classes:lib/spark-assembly-1.5.1-hadoop2.6.0.jar ，表示两个classpath，因为classpath是用冒号分隔的。

总结：

自己进行编译和运行是比较原生的方法，有利于你了解像eclipse这种ide是怎么运行程序的。但如果包依赖比较复杂，这种方法容易出错。建议打包成 jar ，之后通过import调用。也可以将外部依赖包加入scala，同时去掉开头的包声明，通过import 进依赖包，再Scala>:load 进NAStatsCounter.scala 代码，就可以调用NAStatsCounter类进行统计操作啦。

Scala编译和运行

你可能感兴趣的:(Scala编译和运行)