序列化一个Scala对象为文本或者二进制数据,以便支持持久化或者网络传输等需求,并通过读取这些数据,可以反序列化出这个对象
scala Serializable 实际上就是一个java.io.Serializable
的universal trait
package scala
/**
* Classes extending this trait are serializable across platforms (Java, .NET).
*/
trait Serializable extends Any with java.io.Serializable
class Foo extends Serializable {
// class code here
}
Static annotation SerialVersionUID可以与Serialization一起使用
If no serialVersionUID is declared, JVM will use its own algorithm to generate a default SerialVersionUID.
SerialVersionUID的目的是为了检查序列化和反序列化的类是否兼容。
当一个类mixin Serializable 之后,整个类的实例(all members)都会被序列化,但有时候这并不是我们需要的
def closureFunction[E,D,R](enclosed: E)(gen: E => (D => R)) = gen(enclosed)
class Foo {
val v1 = 42
val v2 = 73
val n = new NotSerializable
// use shim function to enclose *only* the values of 'v1' and 'v2'
def f() = closureFunction((v1, v2)) { enclosed =>
val (v1, v2) = enclosed
(x: Int) => (v1 + v2) * x // Desired function, with 'v1' and 'v2' enclosed
}
}
new Foo.f
Static annotation @transient
表示修饰的 member 不需要被序列化
比如一个 SparkJob base class
class SparkJob(args: Args) extends Serializable {
@transient
protected lazy val sparkConf = new SparkConf()
@transient
protected lazy val sc = new SparkContext(sparkConf)
...
}
由于引用的sparkConf, sparkContext都是不可序列化的,
且都不需要被传送到executor上运行,因此可以用@transient表示该成员不需要被序列化
再如,一个算法模型类,需要读取模型文件,并且需要频繁通过ByteBuffer来操作二进制数据
但是ByteBuffer本身又是不可序列化的, 此时可以使用 @transient (private) lazy pattern
其中 @trainsient 可以避免 overhead,lazy 可以第一次被调用时正确地初始化以避免NPE
class Model(
val model: Array[Byte],
val offset: Array[Byte]
) extends Serializable {
@transient private lazy val offsetBuffer = ByteBuffer.wrap(offset).order(ByteOrder.LITTLE_ENDIAN)
@transient private lazy val modelBuffer = ByteBuffer.wrap(model).order(ByteOrder.LITTLE_ENDIAN)
...
}
这种模式也适用于其他难以被序列化的 member,比如数据库连接,IO stream 等,每个实例只需序列化可以用来重建这些 member 的元信息即可。
在如 Spark 这样的分布式计算框架中, broadcast, shuffle, action等操作都会使得对象被序列化。使每个被闭包捕获的变量都可序列化,可以避免异常,但是变量非常大时,容易影响性能,以及有可能造成内存泄露。
在 Spark 中使用 kryo serializer 来获得更小的序列化开销
val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)
在 Spark 中如果通过闭包引用了一个huge object, 那么这个object会被至少序列化 numPartitions 次,而如果使用broadcast variables, 那么只会被序列化 numNodes 次,通常 numPartitions > numNodes
http://erikerlandson.github.io/blog/2015/03/31/hygienic-closures-for-scala-function-serialization
https://github.com/samthebest/dump/blob/master/sams-scala-tutorial/serialization-exceptions-and-memory-leaks-no-ws.md
http://stackoverflow.com/questions/285793/what-is-a-serialversionuid-and-why-should-i-use-it