序列化之protobuf与avro对比(Java)

序列化之protobuf与avro对比(Java)

  最近在做socket通信中用到了关于序列化工具选型的问题,在调研过程中开始趋向于用protobuf,可以省去了编解码的过程。能够实现快速开发,且只需要维护一份协议文件即可。

  但是调研过程中发现了protobuf的一些弊端,比如需要生成相应的文件类,和业务绑定太紧密,所以在看了AVRO之后发现它完美解决了这个问题。

  下面记录下对这两种序列化工具的入门与测评。

一、protobuf基本操作

protobuf简介:

Protocol Buffers (a.k.a., protobuf) are Google's language-neutral, platform-neutral, extensible mechanism for serializing structured data. 

protobuf是google提供的一种跨语言、跨平台、可扩展的序列化工具。

1.1定义协议文件(部分字段)(TCPLog.proto):

复制代码

syntax = "proto2";
message TCPLog{
         optional int32   total_byteps = 1;
         optional int64 flow_start_time =2;
         optional int64 date =3;
}

复制代码

1.2生成对应的Java类:

生成过程可以使用ecplise 的插件 或者 直接在控制台中使用命令生成。

命令行中生成规则如下:

1

protoc.exe -I=proto的输入目录 --java_out=java类输出目录 proto的输入目录包括包括proto文件

  生成java类如下:

View Code

之后便可以使用该类进行序列化和反序列化。

具体示例代码如下》:

复制代码

import java.io.File;
import java.io.FileOutputStream;


public class ProtoTest3 {
 /**
 * @param args
 * @throws Exception
 * @author qiang(upupgo)
 */
public static void main(String[] args) throws Exception {
        //模拟将对象转成byte[],方便传输
     TCPLogOuterClass.TCPLog.Builder builder = TCPLogOuterClass.TCPLog.newBuilder();
    builder.setTotalByteps(1024);
    builder.setFlowStartTime(1502415717l);
    builder.setDate(1502415717l);
   //序列化到文件
     TCPLogOuterClass.TCPLog tcpLog= builder.build();
     FileOutputStream out = new FileOutputStream(new File("D:/pb"));
     out.write(tcpLog.toByteArray());
     out.close();
     //反序列化
    TCPLogOuterClass.TCPLog tcp = TCPLogOuterClass.TCPLog.parseFrom(tcpLog.toByteArray());
    System.out.println(tcp);
}
}

复制代码

二、AVRO序列化基本操作:

AVRO简介:

复制代码

Apache Avro™ is a data serialization system.
Avro provides:
Rich data structures.
A compact, fast, binary data format.
A container file, to store persistent data.
Remote procedure call (RPC).
Simple integration with dynamic languages. Code generation is not required to read or write data files nor to use or implement RPC protocols. Code generation as an optional optimization, only worth implementing for statically typed languages.

复制代码

  Avro是一个序列化系统。丰富的数据结构、快速压缩的二进制数据格式、数据持久化存储、RPC及动态语言集成。

2.1定义协议文件(TCPLog.avro)

复制代码

{"namespace": "example.avro",
 "type": "record",
 "name": "TCPLog",
 "fields": [
     {"name": "total_byteps", "type": "int"},
     {"name": "flow_start_time",  "type": "long"},
     {"name": "date", "type": "long"}
     
 ]
}
              

复制代码

avro和protobuf一样可以生成相应语言的类文件,或直接支持动态扩张。下面以Java语言不生成类说明:

具体序列化与反序列化操作代码如下:、

复制代码

package avro;

import java.io.File;

import org.apache.avro.Schema;
import org.apache.avro.file.DataFileReader;
import org.apache.avro.file.DataFileWriter;
import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericDatumReader;
import org.apache.avro.generic.GenericDatumWriter;
import org.apache.avro.generic.GenericRecord;
import org.apache.avro.io.DatumReader;
import org.apache.avro.io.DatumWriter;
/**
 * @date 2017年8月13日22:15:32
 * @author qiang(upupgo)
 *
 */
public class AvroTest2 {
public static void main(String[] args) throws Exception {
    String filePath = "D:/TCPLog.avsc";
    Schema schema = new Schema.Parser().parse(new File(filePath));
    
    GenericRecord tcpLog = new GenericData.Record(schema);
    tcpLog.put("total_byteps", 1024);
    tcpLog.put("flow_start_time", 1502415717L);
    tcpLog.put("date", 1502415717L);
   
    System.out.println(tcpLog);
    
    
    // Serialize user1 and tcpLog to disk
    File file = new File("D:/avro");
    DatumWriter datumWriter = new GenericDatumWriter(schema);
    DataFileWriter dataFileWriter = new DataFileWriter(datumWriter);
    dataFileWriter.create(schema, file);
    long timestart = System.currentTimeMillis();
    dataFileWriter.append(tcpLog);
    dataFileWriter.close();
    long timeend = System.currentTimeMillis();
    System.out.println(timeend-timestart);
    
    // Deserialize users from disk
    DatumReader datumReader = new GenericDatumReader(schema);
    DataFileReader dataFileReader = new DataFileReader<>(new File("d:/avro"), datumReader);
    GenericRecord tcpLogs = ;
    long timestart1 = System.currentTimeMillis();
    while (dataFileReader.hasNext()) {
    // Reuse user object by passing it to next(). This saves us from
    // allocating and garbage collecting many objects for files with
    // many items.
        tcpLogs = dataFileReader.next();
//    System.out.println("xx"+tcpLogs);
  }
    long timeend1 = System.currentTimeMillis();
    System.out.println("Deserialize"+(timeend1-timestart1));
 }
}

复制代码

以下是通过对100W tcpLog序列化操作对比结论:

通过对比测试发现 avro的性能要不pb稍微好一些,且支持动态性。故技术选型上可以优先考虑。

以上是通过测试对比了pb与avro的一些性能差异,但是具体测试和机器和样本都有关系,可以参考。

你可能感兴趣的:(大数据Java基础,三个月大数据工程师学习计划)