数据模型和数据存储格式

以列式数据存储格式parquet介绍两者区别。

三个概念:

  1. 存储格式,是数据的二进制组织表示形式,如parquet

  2. 数据对象转换器,其任务是在外部对象模型和Parquet的内部数据类型之间进行映射。

  3. 对象模型,它们是数据的内存表示形式。Avro,Thrift,Protocol Buffer,Hive和Pig都是对象模型的示例。

三者关系用图表说明:


数据模型和数据存储格式_第1张图片
image.png

Avro,Thrift和Protocol Buffer都有自己的存储格式,但是Parquet不会以任何方式使用它们。而是将它们的对象映射到Parquet数据模型,parquet使用自己的文件格式进行序列化,所以parquet不能读取avor存储格式的数据。

让我们检查一下将Avro对象写入Parquet时会发生什么:


数据模型和数据存储格式_第2张图片
image.png

你可能感兴趣的:(数据模型和数据存储格式)