分布式架构下的序列化技术

序列化（编码）是将对象序列化为二进制形式（字节数组/有序字节流），主要用于网络传输、数据持久化等，核心作用是对象状态的保存与重建。
反序列化（解码）则是将从网络、磁盘等读取的字节数组/对象字节流还原成原始对象，主要用于网络传输对象的解码，以便完成远程调用。

为什么要序列化：

JVM是Java程序运行的环境，但是同时是一个操作系统的一个应用程序，即一个进程。运行依赖于内存，因此Java中对象都是存储在内存中，准确地说是JVM的堆或栈内存中，可以各个线程之间进行对象传输，但是无法在进程之间进行传输。如果涉及到跨内存的数据传输（比如两台机器的传输），直接把对象作为参数传递就不可取了，这时就需要通过“网络”将数据传输。

序列化只是定义了拆解对象的具体规则，那这种规则肯定也是多种多样的，常见的序列化方式有：

JDK 原生

JDK自带的序列化方式，使用起来非常方便，只需要序列化的类实现了Serializable接口即可，Serializable接口没有定义任何方法和属性，所以只是起到了标识的作用，表示这个类是可以被序列化的。
把一个Java对象变为byte[]数组，需要使用ObjectOutputStream。它负责把一个Java对象写入一个字节流，如果没有实现Serializable接口而进行序列化操作就会抛出NotSerializableException异常

在反序列化时，JVM需要知道所属的class文件，在序列化的时候JVM会记录class文件的版本号，也即serialVersionUID这一变量。该变量默认是由JVM自动生成，也可以手动定义。反序列化时JVM会按版本号找指定版本的class文件进行反序列化，如果class文件有版本号在序列化和反序列化时不一致就会导致反序列化失败，会抛异常提示版本号不一致，

JDK序列化会把对象类的描述和所有属性的元数据都序列化为字节流，另外继承的元数据也会序列化，所以导致序列化的元素较多且字节流很大，但是由于序列化了所有信息所以相对而言更可靠。但是如果只需要序列化属性的值时就比较浪费。
而且因为Java的序列化机制可以导致一个实例能直接从byte[]数组创建，而不经过构造方法，因此，它存在一定的安全隐患。一个精心构造的byte[]数组被反序列化后可以执行特定的Java代码，从而导致严重的安全漏洞。

Java默认提供的序列化：无法跨语言、序列化后的码流太大、序列化的性能差

XML

优点：人机可读性好，可指定元素或特性的名称。
缺点：序列化数据只包含数据本身以及类的结构，不包括类型标识和程序集信息；只能序列化公共属性和字段；不能序列化方法；文件庞大，文件格式复杂，传输占带宽。
适用场景：当做配置文件存储数据，实时数据转换。

JSON（跨语言）

一种轻量级的数据交换格式，
优点：兼容性高、数据格式比较简单，易于读写、序列化后数据较小，可扩展性好，兼容性好、与XML相比，其协议比较简单，解析速度比较快。
缺点：数据的描述性比XML差、不适合性能要求为ms级别的情况、额外空间开销比较大。
适用场景（可替代ＸＭＬ）：跨防火墙访问、可调式性要求高、基于Web browser的Ajax请求、传输数据量相对小，实时性要求相对低（例如秒级别）的服务。

JSON解析库：Jackson

Jackson 是当前使用最广泛的序列化和反序列化 Json的 Java 的开源框架。Spring MVC 的默认 Json 解析器便是 Jackson。解析大的 Json 文件速度比较快；运行时占用内存比较低，性能比较好；Jackson 有灵活的 API，可以很容易进行扩展和定制。
Jackson提供了一套用于Java（和JVM平台）的数据处理工具，包括旗舰级流JSON解析器/生成器库，匹配的数据绑定库（与JSON之间的POJO）和附加的数据格式模块。支持广泛使用的数据类型的数据类型。

三大模块：
Streaming流处理模块(jackson-core)：定义底层处理流的API：JsonPaser和JsonGenerator等，并包含「特定于json」的实现。
Annotations标准注解模块(jackson-annotations)：包含标准的Jackson注解
Databind数据绑定模块(jackson-databind)：在streaming包上实现数据绑定(和对象序列化)支持；「它依赖于上面的两个模块」，也是Jackson的高层API(如ObjectMapper)所在的模块
Jackson-core Github地址：https://github.com/FasterXML/jackson-core
Jackson-core 官方文档：https://github.com/FasterXML/jackson-core/wiki
Jackson-annotations Github地址：https://github.com/FasterXML/jackson-annotations
Jackson-annotations 官方文档：https://github.com/FasterXML/jackson-annotations/wiki
Jackson-databind Github地址：https://github.com/FasterXML/jackson-databind
Jackson-databind 官方文档：https://github.com/FasterXML/jackson-databind/wiki
官网：http://fasterxml.com/

JSON解析库：Gson

Google Gson是一个简单的基于Java的库，用于将Java对象序列化为JSON

Github地址：https://github.com/google/gson
官方文档：https://github.com/google/gson/blob/master/UserGuide.md
API文档：https://www.javadoc.io/doc/com.google.code.gson/gson

JSON解析库：Fastjson(安全漏洞较多)

Fastjson是阿里巴巴的开源JSON解析库，它可以解析JSON格式的字符串，支持将Java Bean序列化为JSON字符串，也可以从JSON字符串反序列化到JavaBean。
Fastjson1 Github地址：https://github.com/alibaba/fastjson
Fastjson1 官方文档：https://github.com/alibaba/fastjson/wiki/
Fastjson2 Github地址：https://github.com/alibaba/fastjson2
Fastjson2 官方文档：https://github.com/alibaba/fastjson2/wiki

Kryo

快速序列化/反序列化工具，依赖于字节码生成机制（底层使用了 ASM 库)，在序列化速度上有一定的优势，正因如此也只能限制在基于 JVM 的语言上。
Kryo支持自动深/浅拷贝，直接通过对象->对象的深度拷贝，而不是对象->字节->对象的过程。
Kryo 序列化出的结果是其自定义的、独有的一种格式。由于其序列化出的结果是二进制的，也即 byte[]，因此像 Redis 这样可以存储二进制数据的存储引擎是可以直接将 Kryo 序列化出来的数据存进去。
Github地址：https://github.com/EsotericSoftware/kryo
官方文档：https://github.com/EsotericSoftware/kryo/wiki
社区：https://groups.google.com/g/kryo-users

ProtoBuf（跨语言）

谷歌开发的一款无关平台，无关语言，可扩展，轻量级高效的序列化结构的数据格式，用于将自定义数据结构序列化成字节流，和将字节流反序列化为数据结构。
适合做数据存储和为不同语言，不同应用之间互相通信的数据交换格式，只要实现相同的协议格式，后缀为proto文件被编译成不同的语言版本，这样不同的语言可以解析其它语言通过Protobuf序列化的数据。
优点：
1.跨语言：可以在多种语言之间交换结构化数据。
2.向后兼容，新增的字段不影响协议使用。
3.自动化生成代码，简单易用。
4.二进制消息，效率高，性能好。(PS:解析速度快、占用空间少)
5.Netty等框架集成了该协议，提高开发效率。
6.安全，只写入了字段号信息，被编码成二进制，破解难度大。
缺点：
1.二进制消息，可读性差。
2.字段冗余，类会越来越大，维护成本高。
Github地址：https://github.com/protocolbuffers/protobuf
官网：https://developers.google.com/protocol-buffers/
官方文档：https://developers.google.com/protocol-buffers/docs/overview
API文档：https://developers.google.com/protocol-buffers/docs/reference/overview

Thrift（跨语言）

高效的、支持多种语言的远程服务调用框架，由于Thrift提供了多语言之间的RPC服务，所以很多时候被用于序列化中。
优点：
1.序列化和RPC支持一站式解决，比ProtoBuf更方便。
2.丰富的数据类型、对于数据字段的增删具有较强的兼容性、支持二进制压缩编码。
3.跨语言，IDL接口定义语言，自动生成多语言文件。
省流量，体积较小。
4.包含完整的客户端/服务端堆栈，可快速实现RPC 。
5.为服务端提供了多种工作模式，如线程池模型、非阻塞模型。
缺点：
1.不支持双通道。
2.rpc方法非线程安全，服务器容易被挂死，需要串行化。
3.默认不具备动态特性（可以通过动态定义生成消息类型或者动态编译支持）
适用场景：分布式系统的RPC解决方案
Github地址：https://github.com/apache/thrift
官网：https://thrift.apache.org/
官方文档：hhttps://thrift.apache.org/docs/

Hessian（跨语言）

Hessian与Protobuf、Thrift一样，支持跨语言RPC通信。Hessian相比其它跨语言PRC框架的一个主要优势在于，它不是采用IDL来定义数据和服务，而是通过自描述来完成服务的定义。
Hessian 是一种动态类型、二进制序列化和 Web 服务协议，专为面向对象的传输而设计。和JDK自带的序列化方式类似，Hessian采用的也是二进制协议，Hessian序列化之后，字节数更小，性能更优。
Github地址：https://github.com/ebourg/hessian
官网：http://hessian.caucho.com/
官方文档：http://hessian.caucho.com/doc/

Avro（跨语言）

Avro是Apache Hadoop下的一个数据序列化框架。用于支持数据密集型应用，很适合远程或本地大规模数据交换和存储，解决了JSON的冗长和没有IDL的问题。
优点：支持丰富的数据类型、简单的动态语言结合功能、具有自我描述属性、提高了数据解析速度、快速可压缩的二进制数据形式、可以实现远程过程调用RPC、支持跨编程语言实现。
缺点：对于习惯于静态类型语言的用户不直观。
适用场景：在Hadoop中做Hive、Pig和MapReduce的持久化数据格式。
Github地址：https://github.com/apache/avro
官网：https://avro.apache.org/
官方文档：https://avro.apache.org/docs/current/

MessagePack（跨语言）

一个高效的二进制序列化框架，支持不同语言间的数据交换，性能更快，序列化之后的码流也更小。
优点：
1.跨语言，多语言支持。
2.序列化反序列化效率高，文件体积小，比Json小一倍。
3.兼容json数据格式
缺点：
1.缺乏复杂模型支持。msgpack对复杂的数据类型（List、Map）支持的不够，序列化没有问题，但是反序列化回来就很麻烦，尤其是对于java开发人员。
2.维护成本较高。msgpack通过value的顺序来定位属性的，需要在不同的语言中都要维护同样的模型以及模型中属性的顺序。
3.不支持模型嵌套。msgpack无法支持在模型中包含和嵌套其他自定义的模型（如weibo模型中包含comment的列表）。
Github地址：https://github.com/msgpack
官网：https://msgpack.org/
官方文档：https://msgpack.org/

影响序列化性能的关键因素：

序列化后的码流大小（网络带宽的占用）
序列化的性能（CPU资源占用）
是否支持跨语言（异构系统的对接和开发语言切换）