从树中一个节点到另一个节点自己的分支构成两个节点之间的路径,路径上的分支数目称做路径长度。树的路径长度就是从树的根节点到每一个节点的长度之和。
假设一颗有N个节点的二叉树,每个叶子节点都带权值wk,每个叶子节点的路径长度为lk。我们称带权路径长度WPL最小的二叉树称做huffman树(最优二叉树)。
huffman树的构造方法:
1、根据k个权值{w1,w2,...,wk},生成k颗只有根结点,没有左右子树的二叉树的集合F{T1,T2,。。,Tk},其中每颗树的根节点都有一个权值wi。
2、在F中选取两颗根节点的权值最小的树作为左右子树构造一颗新的二叉树。两颗子树,权值小的为左子树,大的为右子树。新的二叉树的权值为两颗树的权值之和。
3、将2步选取的两颗树在F中删除,并将新二叉树加入F中。
4、重复2,3步,直到F中只有一颗树为止。
代码实现的时候,集合F最好用最小堆来存储待合并的带权值的二叉树。由于到现在为止还未讲到堆,把实现部分放到TODO 中吧。
huffman树最常的一个应用是huffman编码,huffman编码主要用于数据的压缩和解压。
压缩过程:
1、计算待压缩数据中所有的字符及其出现次数,根据次数的不同对没个字符分配不同的权值(一般用出现频率/总字符数)。
2、对所有带压缩字符按起权值,构造一颗huffman树。
3、对huffman树所有子树的左支用1编码,右支用1编码。每个位于叶子节点的字符的编码为从根节点到该叶子节点路径上的0,1编码值,这个在huffman树上重新得到的编码叫huffman编码。这样可以得到每个字符的huffman编码。
4、用huffman编码代替数据中所有字符的原有值。
由于huffman树所经历的带权路径最小,利用huffman树重新编码的字符组成的数据将也是bit数最少的数据。从而达到压缩的效果。
对于一块数据来说,其所有字符的huffman编码是固定的,解压过程只要根据每个字符的huffman编码反向查找其原来编码进行还原即可。huffman编码是一种前缀编码,也就是说每个字符编码后所占的bit数不一,但任一字符的编码都不是另一编码的前缀。可以保证不会在连续的压缩后的数据中出现解码错误。