Week 10.15 Protocol Buffers.
Protocol Buffers 简称 Protobuf,Google 内部用来定义数据的语言。
作为软件工程师,我们的工作主要就是搬运数据,并且对数据进行处理。在各大公司,都有自己的跨语言的定义数据的方法,在 Google 大量使用了 Protobuf。在公司内部,有多个 Protobuf 的版本,现在开源的主要是 proto2 和 proto3. 两者各有优劣,对于外部使用,推荐使用 proto3.
什么是 proto. 简单来讲,对于需要共享的数据类型,将其写到 proto 文件中。
如:
message Person {
required string name = 1;
required int32 id = 2;
optional string email = 3;
enum PhoneType {
MOBILE = 0;
HOME = 1;
WORK = 2;
}
message PhoneNumber {
required string number = 1;
optional PhoneType type = 2 [default = HOME];
}
repeated PhoneNumber phones = 4;
}
message AddressBook {
repeated Person people = 1;
}
如上表述了一个电话号码本。在经过 Protobuf 编译以后,可以在不同的语言下,生成出不同的数据类用来表达上述数据结构,根据语言的不同,生成出的方法有一些区别,但是大同小异。
如在 Java 中,会生成:
// required string name = 1;
public boolean hasName();
public String getName();
// required int32 id = 2;
public boolean hasId();
public int getId();
// optional string email = 3;
public boolean hasEmail();
public String getEmail();
// repeated .tutorial.Person.PhoneNumber phones = 4;
public List
public int getPhonesCount();
public PhoneNumber getPhones(int index);
对应的,根据也会生成更加方便使用的 Builder 类。所以在 Java 中,可以直接用下列代码来定义一个数据实例。
Person john =
Person.newBuilder()
.setId(1234)
.setName("John Doe")
.setEmail("[email protected]")
.addPhones(
Person.PhoneNumber.newBuilder()
.setNumber("555-4321")
.setType(Person.PhoneType.HOME))
.build();
由于 protobuf 是跨语言的,在不同的端完全可以使用同一套 proto 文件,生成出不同的语言的数据类,便于直接操作。proto 语言本身的表述性很强,至少满足了 Google 的需求。比如可以定义 Optional, Required 变量,定义变量 Default value,定义 Enum,嵌套,还可以用 repeated 来表述 List. Proto3 更是提供了 JSON 的接口,可以直接和 JSON 相互转化。
目前 protobuf 支持的语言有 C++, Go, Python, Java, Ruby, JavaScript, C#, Objective C, PHP等. 几乎包括了所有主流的语言。
我个人认为 Protobuf 的优点主要有三个。
一:语言表达简洁且表达性好。多种语言支持好。
Protobuf 自身简洁且能表达复杂内容。比如List,只需要加入 repeated. Message Type 可以随意定义,而且依赖。用 Protobuf 先把 OO 的逻辑定义清楚,省去了很多思考。对比JSON或者XML,proto 文件的表述也简洁很多。同时,proto 除了生成 data class 以外,还会生成很多 helper code。比如 Builder,mergeFrom,clear 等等。
二:数据传输体积小。
Protobuf 会对生成数据进行高效的编码,作网络传输时,性能大大优于传统的JSON方法。
(https://auth0.com/blog/beating-json-performance-with-protobuf/). 在这篇文章的实验中,使用 Java 语言,Protobuf 比 JSON 的性能好 5 ~ 6 倍。
三:更好的兼容性。
最早 Google 使用 Protobuf 是为了解决不同端之间兼容性的问题。随着 Google 体量增大,不同 Server 发布的时间有了差异。Server 间相互传输的 message 需要有好的兼容性。比如,当某项功能修改了 message,server 已经使用了最新的 message,但是 client 还是在 parse 老的 message,有可能会出现严重的错误。在 Protobuf 中,新添加的 message field 被静静地无视了,通常不需要 client 做特别的处理。当然这种对 message 的修改也不是没有限制的,例如,可以随意把 message 重命名,但是不能更改 field number 等等。
不仅仅是数据类型,services 的定义也可以用 Protobuf 来表示。这就是下篇文章 gRPC 的内容了。