关于Parquet

Apache Parquet 是有效存储嵌套数据的列式存储格式

Hive中的ORC(Optimized Record Columnar)也是列式存储

Parquet

    1 与语言无关的定义文件格式的Parquet规范

    2 不同语言的规范实现,读写Parquet

模式规范

    重复数+数据类型+字段名称

重复数:required/optional/repeated

数据类型

    原子类型

        boolean/int32/int64/int96/float/double/binary/fixed_len_byte_array

    逻辑类型

        UTF-8/ENUM/DECIMAL/DATE/LIST/MAP

    使用group创建复杂类型

    嵌套编码

       使用Dremel编码,模式中的每个原子类型的字段都单独存储为一列,每个值都要通过使用两个整数对结构进行编码,definition level和repetition level

        对任意列(包括嵌套列)的读取不需要涉及到其他列





你可能感兴趣的:(Parquet)