给定n个权值作为n个叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
树节点间的边相关的数叫做权。从树中的一个节点到另一个节点之间的分支构成两个点之间的路径,路径上的分支数目称作路径长度。
例如,如下图:
从根结点100到C3的路径长度为4,也就是图中的根结点100到达C3的路径长度为4。
树的路径长度就是从树根到每一个节点的路径长度之和。二叉树的路径长度就为1+1+2+2+2+2+3+3+3+3+4+4+4+4=38。如果考虑带权的节点,节点的带权的路径长度就是从该节点到树根之间的路径长度乘该节点的权。数的带权路径长度就是所有叶子节点的带权路径长度之和。带权路径长度(WPL)最小的二叉树称作哈夫曼树。
下面我们以【3、4、5、6、10、25、36、11】为例来画出哈夫曼树(数字大小代表权重大小,越大的权重越大)
【3、4、5、6、10、25、36、11】→【3、4、5、6、10、11、25、36】
构成第一个二叉树,根结点为7,左子树为3,右子树为4。
之后一直重复第一、第二步:排序然后取两个最小值。实际就是一个递归过程
取两个最小数5和6,构成另一个二叉树,根结点11,左子树为5,右子树为6。
再取两个最小数第一个二叉树的根结点7和未取出的数10,组成一个新的二叉树如图:
再取一个数11,和另一个根结点相结合,组成一个新的二叉树:
再取出两个最小数字,现在两个最小数字是两个二叉树的根结点,所以如下图:
再取两个最小数25和36,组成新的二叉树:
再取两个最小数的根结点,如下图所示,组成新的二叉树:
这个过程就是构造哈夫曼树的过程,也是最小二叉树。
哈夫曼研究这种最优树的目的是为了解决当年远距离通信(主要是电报)的数据传输的最优化问题。
比如我们继续用上边的图来做这个,正好图片上有编码了。不管是以前还是现在,网络的数据传输都是用的计算机最基础的语言,0和1,图上的C1到C8八个字符串,和图上附带的它们自带的权值,带表了它们在数据中出现次数的量,如何才能用最少的数据存储,传出最大的数据信息呢,这就是哈夫曼编码的作用。
根据上边的构造哈夫曼树,我们把左子树的边用0表示,把右子树的边用1表示,那就得到如下的二进制编码。
C1:0100
C2:10
C3:0000
C4:0101
C5:001
C6:011
C7:11
C8:0001
用到的次数越少,那么编码则就越长,用到的次数越多,则编码就越短,当这个次数足够多的时候,差距才会比较明显。
如果用字母表示,可能会更明显,看下边的一个例子:
比如我们有一段文字“BADCADFEED”,显然用二进制数字(0和1)表示是很自然的想法。
这样真正传输的数据就是“001000011010000011101100100011”,对方接收时同样按照3位一组解码。如果一篇文章很长,这样的二进制串也非常的可怕。而且事实上,每个字母或者汉字的出现频率是不同的。
假设六个字母的频率为A 27,B 8, C 15, D 15 , E 30, F 5,合起来正好是100%,那就意味着我们完全可以用哈夫曼树来规划它们。
左图为构造哈夫曼树的过程的权值显示。右图为将权值左分支改为0,右分支改为1后的哈夫曼树。
我们对这六个字母用其从树根到叶子所经过的路径的0或1来编码,可以得到下表:
也就是说我们的数据被压缩了,节约了大概17%的存储或传输成本。随着字符的增加和多字符权重的不同,这种压缩会更显出优势来。
上例子,摘自diligentyang
好的,总结来说,哈夫曼树在一定程度上缓解了传输数据量过大,大大节省了传输成本。