【4.分布式存储】-数据编码与压缩

带状态的分布式离不开数据,本文想说下数据的格式,在内存中主要考虑空间复杂度和cpu操作时间复杂性,后面会单讲,分布式里常用的B,B+,list,set,跳表,hash,空间的R树,前缀树,压缩前缀树,涉及到这几种。在网络和磁盘中考虑格式和人编辑格式到物理格式之间的映射,在牺牲cpu处理压缩和解压缩下,可以减少磁盘占用和网络开销,下面主要讲三种网络通信的数据压缩thriftBP,PB,Avro和几种磁盘数据压缩性能对比,snappy的原理,EC原理。其中涉及到两种压缩算法:数字变长编码和动态词典编码。

内存数据结构

这个就太多了。。略

IO:json/xml(无类型,unicode支持不好等),二进制编码

  • JSON演化messagePack
    不流行,因为需要在编码数据中包含对象名称.只是删除空白和标点的感觉
  • thrift BinaryProtocal 字段名替换为序号

    {
        "userName": "Martin",
        "favoriteNumber": 1337,
        "interests": ["daydreaming", "hacking"]
    }

    =》压缩格式:
    【4.分布式存储】-数据编码与压缩_第1张图片

  • pb(thrift的compactProtocal和这个一样)

    【4.分布式存储】-数据编码与压缩_第2张图片

    field和type在单个字节。数据的优化数据最高位标识是否还有后续,这个1337有错误,是下面的

  • Avro
    官方:http://avro.apache.org/docs/c...
    这几种网络传输数据格式,由用户定义,就考虑数据变更时的兼容:
    从上面可以看出thrift和protocal在压缩时是依赖编号的,可以换换名字,但是不能换编号,可以增加编号,旧的编号删了也不能再用,后加的向前兼容不能设为必选。
    Avro在数据变更方便及其灵活,模式和数据编码分别传送,一个传一个模式,大批数据,无编号,读者模式与作者模式匹配,读者解析作者模式

    【4.分布式存储】-数据编码与压缩_第3张图片

    【4.分布式存储】-数据编码与压缩_第4张图片

    只能添加或删除有默认值的字段

  • 可变长数字编码
    int等固定64位的转为二进制,自己判定长度。
    1.连续位标识
    以上数字的转变全是基于VLQ可变长二进制数字编码的变体。最低位加0表示整数,1表示负数,然后7位一个分割。从最后开始,每个后面有第一位是1,否则是0.
    2.前缀长度。
    前缀标识固定的长度,redis中也有很多前缀标识长度的压缩比如UTF8:

    第一个字节 第二个字节 第三个字节 第四个字节 用于实际编码的bit数量 能表示的最大unicode值
    0xxxxxxx 7 127
    110xxxxx 10xxxxxx 11 2047
    1110xxxx 10xxxxxx 10xxxxxx 16 65535
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 21 1114111

压缩

  • 压缩算法对比

    【4.分布式存储】-数据编码与压缩_第5张图片
    【4.分布式存储】-数据编码与压缩_第6张图片
    【4.分布式存储】-数据编码与压缩_第7张图片

    https://catchchallenger.first...:_Gzip_vs_Bzip2_vs_LZMA_vs_XZ_vs_LZ4_vs_LZO
    https://www.percona.com/blog/...

  • snappy/LZ77/LZSS
    DC动态词典编码:用它在词典中的位置号码代替。静态实现需要知道全部词典,讲下动态的
    前向缓冲区(数据流将要处理的所有字符)的开始字符串与滑动窗口中的字符串进行最长匹配,无移动窗口,若找到输出<匹配字符串在滑动窗口的位置,长度,移除前置缓冲区中匹配部分移除后续第一个字符>,LZSS增加匹配长读限制

    【4.分布式存储】-数据编码与压缩_第8张图片
    如何快速找到最长匹配字符串?:简单的将窗口中所有字符顺序组合存入hash,也可以存固定长度,比如2,匹配多个后再继续向后比这些固定长度匹配的位置。
    snappy 将整个数据切割为32k一个大小的块,块之间无关联,2个字节就可表示匹配字符串的相对位置,匹配长度至少为4,hash字符串长度也固定为4.输出字符串的压缩形式为 <编码方案,匹配字符串起始位置差值,匹配字符串长度>

  • EC编码:N个数据块和校验,可以任意丢k个相互恢复
    因为我们都是多副本,
    N个Data块,生成K个Parity块,N+K中可任意丢K个
    可靠性相同时比多副本冗余度低
    只有一份数据可读,修复较复杂
    提高可靠性:增加K,增加N和K,提高修复速度
    https://blog.csdn.net/shelldo...

你可能感兴趣的:(编码,压缩)