AVRO文件结构分析

AVRO文件结构分析
[email protected]

研究了AVRO的规范,比较形象的图形表达了文件中内容布局,仅做参考。详细说明在图形下方。

AVRO文件结构分析

使用AVRO标准系列化生成二进制的文件,该文件总体上由文件头(Header)和数据块(Data Block)及同步标识(Synchronization marker)三部分组成。
  • 文件头为标识为Header的青色大框部分。
  • 数据块为文件头下方紧邻的灰色的Data Block部分。
  • 同步标识为数据块下方紧接着的橘色的Synchronization marker部分。


AVRO通过使用同步标识,将大块数据分割成小块,连续存储在同一个文件中,便于并发处理,即不同线程可以相互无影响的同时操作不同的数据块。因此,在上图最下方的数据块之后,根据情况,会有更多的同步标识和数据块。

AVRO的文件头由三部分组成,如上图所示。
  • 文件头由四个字节'O', 'b', 'j'开始,后面紧接着1,一般称这四个字节为魔术字符(magic)
  • 紧接着文件头的是AVRO的Meta Data
  • 文件头的最后由同步标识结尾

你可能感兴趣的:(ITeye,Gmail)