07 | Android 高级进阶(源码剖析篇) Twitter 的高性能序列化框架 Serial(三)

作者简介:ASCE1885, 《Android 高级进阶》作者。
本文由于潜在的商业目的,未经授权不开放全文转载许可,谢谢!
本文分析的源码版本已经 fork 到我的 Github。

07 | Android 高级进阶(源码剖析篇) Twitter 的高性能序列化框架 Serial(三)_第1张图片
逆光之美

本文开始我们就来探讨下 Serial 序列化的奥秘,也就是数据流的处理,首先看下 Serial 流处理核心的类层次结构:

07 | Android 高级进阶(源码剖析篇) Twitter 的高性能序列化框架 Serial(三)_第2张图片
Serial核心类层次结构

其中抽象类 SerializerStream 用于定义数据流(无论是输入流还是输出流)操作的通用逻辑,目前只有一个方法 isPeekSupported,用来判断当前流是否支持“窥探”操作,主要指的是输入流是否支持在不消费流数据的前提下可以对输入流作某些操作,例如读取流中指定位置(Position)的某些字节信息。相信读者还记得第一篇文章中介绍过的 SerializerInput.peekType(),如果当前输入流 isPeekSupported 为 true,那么我们就可以调用输入流的 peekType 方法来判断流中接下来要读取数据类型是什么,从而执行相应的业务逻辑操作。

抽象类 SerializerInput 和 SerializerOutput 分别定义了输入流和输出流的规范,主要是各种数据类型的读取和写入方法,涉及基本数据类型,String 类型,字节数组 byte[],对象 Object,以及标识对象开始和结束的标记。这些我们在介绍它们的子类时会详细介绍,从上图中可以看到有两种类型的子类:

  • LegacySerializerInput/Output:读数据使用 java.io.ObjectInput,写数据使用 java.io.ObjectOutput,属于较传统的读写方式,第一篇文章介绍过的 Java 传统序列化方式 Serializable 和 Externalizable 底层就是基于这种方式实现对象在磁盘的读写。
  • ByteBufferSerializerInput/Output:读写数据都使用 java.nio.ByteBuffer,Serial 大多数情况都推荐使用这种方式。

下面我们分别来介绍这两种方式的具体实现。

LegacySerializerInput/Output

先有序列化把对象写入到磁盘,才会有反序列化从数据从磁盘还原成对象,因此,我们先来看序列化相关的方法。由于基本数据类型的读写直接调用 ObjectInput 和 ObjectOutput 的相应方法就可以,因此我们不做过多的介绍,这里以读写 int 类型为例看下代码即可,序列化和反序列化是成对的操作,后面我们分析时代码会放在一块进行对比:

// LegacySerializerInput.java
@Override
public int readInt() throws IOException {
    return mInput.readInt();
}

// LegacySerializerOutput.java
@Override
@NotNull
public LegacySerializerOutput writeInt(int val) throws IOException {
    mOutput.writeInt(val);
    return this; // 链式调用
}

String 类型和字节数组 byte[] 的读写也类似,都需要增加对 null 的处理,我们来看下 String 类型的代码逻辑就行。序列化时首先判断传入的字符串是否为 null,是的话就写入一个字节的 NULL_OBJECT 标识位;不为空时则先写入一个字节的 NOT_NULL_OBJECT 标识位,然后才写入真正的字符串数据:

// LegacySerializerDefs.java
protected static final byte NULL_OBJECT = 0;
protected static final byte NOT_NULL_OBJECT = 1;

// LegacySerializerOutput.java
@Override
@NotNull
public LegacySerializerOutput writeString(@Nullable String val) throws IOException {
    if (val == null) {
        writeByte(LegacySerializerDefs.NULL_OBJECT);
    } else {
        writeByte(LegacySerializerDefs.NOT_NULL_OBJECT);
        mOutput.writeUTF(val);
    }
    return this;
}

反序列化时首先从输入流中读取一个字节的数据,然后判断是否等于 NULL_OBJECT,是的话说明序列化时写入的是一个 null 值,否则读取真正的字符串信息,代码如下所示:

@Override
@Nullable
public String readString() throws IOException {
    final byte nullIndicator = readByte();
    if (nullIndicator == LegacySerializerDefs.NULL_OBJECT) {
        return null;
    }
    return mInput.readUTF();
}

接下来我们再来看看对象开始和结束的标记位的读写,可以看到,在这个实现中,只是写入了版本号信息而已,没有其他操作。

// LegacySerializerOutput.java
@Override
@NotNull
public LegacySerializerOutput writeObjectStart(int versionNumber) throws IOException {
    if (mUseVersionNumbers) {
        writeInt(versionNumber);
    }
    return this;
}

@NotNull
@Override
public LegacySerializerOutput writeObjectStart(int versionNumber, @NotNull String className) throws IOException {
    return writeObjectStart(versionNumber);
}

@Override
@NotNull
public LegacySerializerOutput writeObjectEnd() {
    return this;
}

// LegacySerializerInput.java
@Override
public int readObjectStart() throws IOException {
    if (mUseVersionNumbers) {
        return mInput.readInt();
    }
    return 0;
}

ByteBufferSerializerInput/Output

基本数据类型的序列化和反序列化过程是类似的,我们以 float 为例进行说明,首先需要注意,在每次写入数据到 ByteBuffer 之前,都需要判断当前 ByteBuffer 实例是否有足够的空间,空间不足时需要进行双倍的扩容,完成后再递归判断扩容后空间是否足够,代码如下所示:

private void ensureCapacity(int sizeNeeded) {
    if (mByteBuffer.remaining() < sizeNeeded) {
        // 获取当前写入的位置
        final int position = mByteBuffer.position();
        final byte[] bufferContents = mByteBuffer.array();
        // 双倍扩容
        final byte[] newBufferContents = new byte[2 * mByteBuffer.capacity()];
        // 将原来数组中的数据拷贝到扩容后的数组中
        System.arraycopy(bufferContents, 0, newBufferContents, 0, position);
        final ByteBuffer newBuffer = ByteBuffer.wrap(newBufferContents);
        newBuffer.position(position);
        mByteBuffer = newBuffer;
        // 递归判断扩容后空间是否足够
        ensureCapacity(sizeNeeded);
    }
}

float 数据序列化时,如果它的值为 0f,那么直接记录一个 HEADER_FLOAT_ZERO 标记即可,这样可以节省存储空间;如果不为 0f,那么先记录一个 HEADER_FLOAT 标记,然后记录真实的 float 值即可。

// ByteBufferSerializerDefs.java
public static final byte HEADER_FLOAT_ZERO = makeHeader(TYPE_FLOAT, SUBTYPE_DEFAULT);

// ByteBufferSerializerOutput.java
public ByteBufferSerializerOutput writeFloat(float val) {
    if (val == 0f) {
        writeHeader(ByteBufferSerializerDefs.HEADER_FLOAT_ZERO);
    } else {
        writeHeader(ByteBufferSerializerDefs.HEADER_FLOAT);
        ensureCapacity(ByteBufferSerializerDefs.SIZE_FLOAT);
        mByteBuffer.putFloat(val);
    }
    return this;
}

反序列化时,顺序反过来即可,先读取一个字节的头部标记,如果等于值为 0f 的标记,就返回 0f,否则读取真实的 float 值。

public float readFloat() throws IOException {
    try {
        final byte subtype = readHeader(SerializerDefs.TYPE_FLOAT);
        if (subtype == ByteBufferSerializerDefs.SUBTYPE_DEFAULT) {
            return 0f;
        }
        return mByteBuffer.getFloat();
    } catch (BufferUnderflowException ignore) {
        throw new EOFException();
    }
}

在 LegacySerializerInput/Output 中使用的 ObjectInput 和 ObjectOutput 支持 String 类型的读写,因此处理起 String 类型时很简单,到了 ByteBufferSerializerInput/Output,由于使用的 ByteBuffer 只提供对基本数据类型的读写,不直接支持 String 类型的读写,因此,就需要我们自己来处理了,这涉及到 Unicode 字符集和 UTF 编码相关问题。

你可能感兴趣的:(07 | Android 高级进阶(源码剖析篇) Twitter 的高性能序列化框架 Serial(三))