利用哈夫曼树进行文本压缩及解压(步骤)

  1. 首先这里的文本是指可以转字符串的(其他文件的压缩类似)
  2. 本文不关注实现,实现在后续的文章会继续补充
  3. 细节优化会慢慢更新

哈弗曼树

即最优二叉树
带权路径长度达到最小的二叉树
一个哈弗曼树中离根节点最近的叶子 权重最大

字符串/文本统计

“ 我说切克,你说闹,呦呦切克闹,我们一起切克闹.”
字符:频度 —>编码
, : 3 —>0x01
闹 : 3 –>0x02
说 : 2 –>0x03
切克 : 2 –>0x04
呦 : 2 –>0x05
一起 : 1 –>0x06
我 : 1 –>0x07
我们 :1 –>0x08
你 : 1 –>0x09
. :0x0a

替换、压缩

按字符出现的频度作为权重 组建哈夫曼树
把字符和编码映射存入 叶子中
同时原字符串替换成
[0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]
存储的时候存的是二进制的数据,比存字符串要小很多。见下

let str = "我说切克,你说闹,呦呦切克闹,我们一起切克闹."
        let data = str.dataUsingEncoding(NSUTF8StringEncoding)
        print(data)
        print(data!.length)

        var bytes  = [0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]

        let data2 =  NSMutableData()
        for var i = 0 ; i < bytes.count ; i++
        {
        data2.appendBytes(&bytes[i], length: 1)
        }

        print(data2)
        print(data2.length)

log:

<e68891e8 afb4e588 87e5858b efbc8ce4 bda0e8af b4e997b9 efbc8ce5 91a6e591 a6e58887 e5858be9 97b9efbc 8ce68891 e4bbace4 b880e8b5 b7e58887 e5858be9 97b92e>
67
<07030401 09030201 05050402 01080604 020a>
18

而压缩文件存的时候要加入一个编码映射表。

解压

先取出编码映射表(哈夫曼树存储的)
, —>0x01
闹 –>0x02
说 –>0x03
切克 –>0x04
呦 –>0x05
一起 –>0x06
我 –>0x07
我们 –>0x08
你 –>0x09
然后取出<07030401 09030201 05050402 01080604 020a>对照替换即可
还原得到
“我说切克,你说闹,呦呦切克闹,我们一起切克闹.”

你可能感兴趣的:(swift)