关于哈夫曼编码压缩文件

参考Crash Course的课程,做下笔记,原视频在这里 ↓

https://www.bilibili.com/video/BV1EW411u7th?p=21

  1. 我们要对如下一张 4像素 X 4像素的 图片进行压缩,
    关于哈夫曼编码压缩文件_第1张图片
    而在磁盘中图片是一串像素值的形式存储的,每个像素的颜色由RGB确定,这样一张图片需要 48(16*3) 个字节
    关于哈夫曼编码压缩文件_第2张图片
  2. 为了能够压缩图片,我们需要减少冗余的信息或者用更紧凑的表示方法。可以发现,有很多相同的排列:白黄、黑黄、黄黄、白白,这个序列可以有这四种排列组成(当然也有其他不同的方式),我们为这四种排列生成紧凑代码,用更少的字节表示每对排列

关于哈夫曼编码压缩文件_第3张图片

  1. 我们会发现,这四对出现的频率并不相同
    关于哈夫曼编码压缩文件_第4张图片
    黄黄出现的次数最多,所以我们希望通过最紧凑的方式来表示,其次是白黄,黑黄和白白出现的次数最少,我们可以用长一点的来表示

  2. 为了实现以上的表示,我们需要构造哈夫曼树

    • 列出所有的块和频率,每轮选择两个最低的频率,将它们组成一个树。这里BY和WW频率最低,将其组成一个树,组成后的频率为2,这样就完成了一轮算法。
      关于哈夫曼编码压缩文件_第5张图片
    1. 下一轮中重复这样的操作。现在白色的两个频率最低,合并!
      关于哈夫曼编码压缩文件_第6张图片
      合并之后的情况如下
      关于哈夫曼编码压缩文件_第7张图片
    2. 第三轮同理
      关于哈夫曼编码压缩文件_第8张图片
      这样我们就完成了哈夫曼树,它是按照频率排序的,频率低的在下面,频率高的在上
  3. 完成了哈夫曼树,我们还需要生成字典,即如何访问各个节点。我们可以将所有的左子树的分支用0标示,右子树用1标示
    关于哈夫曼编码压缩文件_第9张图片
    这样我们就完成了字典
    关于哈夫曼编码压缩文件_第10张图片
    这样我们可以用0 标示YY,111标示 WW…
    经过这样的压缩后,原本的字符可以表示为如下的形式
    关于哈夫曼编码压缩文件_第11张图片
    这样原来的48字节我们用14位就能表示了!!! (48字节=48 X 8位 = 384 位)

  4. 当然,只保存14位的数据是没有意义的,我们需要将字典也保存下来才能知道表示的信息
    关于哈夫曼编码压缩文件_第12张图片
    加上字典信息后我们需要30字节的空间,仍然比48字节好很多。

你可能感兴趣的:(数据结构,树)