霍夫曼编码(英语:Huffman Coding),又译为哈夫曼编码、赫夫曼编码,是一种用于无损数据压缩的熵编码(权编码)算法。由大卫·霍夫曼在1952年发明。
在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
例如,在英文中,e的出现机率最高,而z的出现概率则最低。当利用霍夫曼编码对一篇英文进行压缩时,e极有可能用一个比特来表示,而z则可能花去25个比特(不是26)。用普通的表示方法时,每个英文字母均占用一个字节,即8个比特。二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。
霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的路径长度是从树根到每一结点的路径长度之和,记为WPL=(W1*L1+W2*L2+W3*L3+...+Wn*Ln),N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树,相应的叶结点的路径长度为Li(i=1,2,...n)。可以证明霍夫曼树的WPL是最小的。
其实哈夫曼编码就是由出现概率的大小决定编码长度的变长编码,出现概率大,编码短,出现概率小,编码长,这样可以使得编码之后的字符串平均长度较小,这样占用的内存就比较小。
一般来说,先由符号的出现概率来构建哈夫曼树,在通过哈夫曼树进行编码。此处概率,可以作为哈夫曼树每个节点的权值。
假设此时有7个符号,其出现次数分别为a(2),b(1),c(8),d(4),e(10),f(2),g(7),现在要对这些符号构造一个哈夫曼树。这棵哈夫曼树节点数应该为13(2*n-1)是刚好可以将这7个符号作为叶结点构成一个哈夫曼树,所以说,我们需要在这7个叶结点上,再插入6个父节点。让我们先对这7个符号的权值,也就是概率进行排序:
1,2,2,4,7,8,10
然后将权值为1,2的符号作为叶结点,得到一个父节点,权值为3,用这个父节点代替权值1,2插入序列,并重新排序,得到
2,3,4,7,8,10
在此将权值为2,3的符号作为叶结点,得到一个父节点,权值为5,代替,并排序,得到
4,5,7,8,10
重复上述步骤7,8,9,10
9,10,15
15,19
34
至此,可以得到哈夫曼树的6个父节点应为3,5,9,15,19,34,而其对应的子结点我们也可以一一得知
于是得到哈夫曼树为
构建好哈夫曼树之后,就是利用哈夫曼树对符号进行编码,从根节点开始,连接左子节点的线为0,连接右子节点的线为1,依次补全直到到达叶结点,这样我们就可以知道所有符号的编码啦。
关于哈夫曼译码,只需要建立在已知的哈夫曼树之上,从根节点开始,编码为0选择左子树,为1选择右子树,直到到达叶结点,返回叶结点既可完成译码。此处需要注意,如果说一段编码进行译码,某一段编码不对应哈夫曼树中的叶结点的编码,那么这段编码应该是出现了错误。
来自一个代码小白。