Scala编译和运行

以下内容执行的前提是你的电脑安装了scala。

注:开头包含类似package声明的scala代码直接在scala命令行用:load指令加载会出错。如果在scala命令行想调用自己在ide写好的类时(大多数情况下你的类会用到外部包,比如spark之类的),怎么办呢?有三种方法:

  1. 将你在ide写好的project在scala下进行编译,之后通过Main调用
  2. 打包整个项目为jar,通过scala -classpath加载后,在scala中import进行调用
  3. 去掉package声明,并且将依赖包通过scala -classpath加载后,再使用:load 加载你的类

下面着重讲编译的方法:

项目的结构

src

 |--com

     |--xzj

          |--process

               |--Main.scala

               |--NAStatsCounter.scala

NAStatsCounter.scala内容

注:package com.xzj.process 是你的包的结构(单独编译时包的声明也可以去掉,但是如果要将整个project打包成jar的形式或者编译整个src时,需要有这一行,不然包之间的引用会出错)

package com.xzj.process
import org.apache.spark.util.StatCounter
class NAStatsCounter extends Serializable {

  val stats: StatCounter = new StatCounter()
  var missing: Long = 0

  def add(x: Double): NAStatsCounter = {

    if (java.lang.Double.isNaN(x)) {
      missing += 1
    } else {
      stats.merge(x)
    }
    this
  }

  def merge(other: NAStatsCounter): NAStatsCounter = {
    stats.merge(other.stats)
    missing += other.missing
    this
  }

  override def toString = {
    "stats: " + stats.toString + "NaN: " + missing
  }
}

object NAStatsCounter extends Serializable {
  def apply(x: Double) = new NAStatsCounter().add(x)
}

Main.scala内容:

package com.xzj.process
object Main {
  def main(args: Array[String]) {

    var testArray = Array(11.1, 12.1, 13.2, Double.NaN)
    var test2 = Array(11, 3, 22.1, Double.NaN, 0)

    var testc = testArray.map(c => NAStatsCounter(c))
    var testc2 = test2.map(NAStatsCounter(_))
    var list = testc.zip(testc2)
    list.map {
      case (a, b) => a.merge(b)
    }
    list.foreach(println)
  }

}

由于NAStatsCounter.scala文件依赖外部包 spark-assembly-1.5.1-hadoop2.6.0.jar,在编译时需要通过classpath指令指明将依赖包。

编译src下的scala:

scalac -classpath lib/spark-assembly-1.5.1-hadoop2.6.0.jar -d classes src/com/xzj/process/*

含义:

  • scalac:scala的编译器
  • -classpath:指明外部依赖包
  • -d:指明 编译后的输出文件 要放到哪里,这里把编译结果放在classes文件下
  • 最后指明需要编译的scala文件(该例子是整个目录)。

编译完成后,classes文件夹下面就会有相应的.class文件,且里面有目录结构 com/xzj/process ,就是根据之前的包声明生成的。接下来可以运行了:

scala -classpath classes:lib/spark-assembly-1.5.1-hadoop2.6.0.jar com.xzj.process.Main

Main 函数依赖 NAStatsCounter,NAStatsCounter 依赖spark包,所以这里要加入两个路径。这里 classpath参数变成 classes:lib/spark-assembly-1.5.1-hadoop2.6.0.jar ,表示两个classpath,因为classpath是用冒号分隔的。

总结:

自己进行编译和运行是比较原生的方法,有利于你了解像eclipse这种ide是怎么运行程序的。但如果包依赖比较复杂,这种方法容易出错。建议打包成 jar ,之后通过import调用。也可以将外部依赖包加入scala,同时去掉开头的包声明,通过import 进依赖包,再Scala>:load 进NAStatsCounter.scala 代码,就可以调用NAStatsCounter类进行统计操作啦。

你可能感兴趣的:(Scala编译和运行)