lz初探

因为没有后续做huffman.

所以enwik8 用了7s压到49%

lz的原理很简单 就是当当前位置的字符串于历史中的某个字符串相同的时候, 引用(ref)历史的字符串(也就是记录偏移和长度),如果没有就直接保存byte.

我用的搜索方法是前3个byte做hash(准确的说是17bit), 然后用一张jmptable,把他们链接起来.

jmptable是一个[4096*16]的数组 4096是12bit, 16是4bit,一共是2个byte.

比如一个字符串"banana-banana" 其中一个链表就把所有的ana串起来, 另一把nan串起来, 还有把banana整个串起来的等等...

用来以后查找最相似的字符串用.

jmptable的必要性在于不需要频繁的new-delete. 实际上利用率是很低的.  如果很珍惜内存的话(或者不想12bit偏移4bit长度的话). 完全可以不用(或者改改).

最终得到一串byte和ref的混合体 比如 "banana-banana" ==> ban[-2,3]-[-7,6]

我这里用[]把它们两个分开表示, 实际程序中,可以用一个byte表示后续8个节点的属性.

当然,如果后续使用huffman就不用这个了. huffman自己就可以区分不同node的属性.

相比huffman 更推荐算术编码,不过这里不打算涉及,要问为什么的话 我跟你们说 因为我不懂啊   (括弧笑).

总的来说 lz的理论还是很KISS的.

你可能感兴趣的:(lz初探)