哈夫曼树与哈夫曼编码

1、什么是哈夫曼树
谈到哈夫曼树,需要了解树的路径长度、树的带权路径长度和最优二叉树的概念。
(1)树的路径长度
树的路径长度是从树根到树中每一结点的路径长度之和。在结点数目相同的二叉树中,完全二叉树的路径长度最短
(2)树的带权路径长度(Weighted Path Length of Tree,简记为WPL)
结点的权:在一些应用中,赋予树中结点的一个有某种意义的实数。
结点的带权路径长度:结点到树根之间的路径长度与该结点上权的乘积。
树的带权路径长度(Weighted Path Length of Tree):定义为树中所有叶结点的带权路径长度之和,通常记为:
这里写图片描述
其中:
n表示叶子结点的数目
wi和li分别表示叶结点ki的权值和根到结点ki之间的路径长度。
树的带权路径长度亦称为树的代价。
(3)最优二叉树或哈夫曼树
在权为w1,w2,…,wn的n个叶子所构成的所有二叉树中,带权路径长度最小(即代价最小)的二叉树称为最优二叉树或哈夫曼树。
【例】给定4个叶子结点a,b,c和d,分别带权7,5,2和4。构造如下图所示的三棵二叉树(还有许多棵),它们的带权路径长度分别为:
(a)WPL=7*2+5*2+2*2+4*2=36
(b)WPL=7*3+5*3+2*1+4*2=46
(c)WPL=7*1+5*2+2*3+4*3=35
其中(c)树的WPL最小,可以验证,它就是哈夫曼树。
哈夫曼树与哈夫曼编码_第1张图片
注意:
① 叶子上的权值均相同时,完全二叉树一定是最优二叉树,否则完全二叉树不一定是最优二叉树。
② 最优二叉树中,权越大的叶子离根越近。
③ 最优二叉树的形态不唯一,WPL最小

2、构造哈夫曼树
哈夫曼首先给出了对于给定的叶子数目及其权值构造最优二叉树的方法,故称其为哈夫曼算法。其基本思想是:
  (1)根据给定的n个权值wl,w2,…,wn构成n棵二叉树的森林F={T1,T2,…,Tn},其中每棵二叉树Ti中都只有一个权值为wi的根结点,其左右子树均空。
  (2)在森林F中选出两棵根结点权值最小的树(当这样的树不止两棵树时,可以从中任选两棵),将这两棵树合并成一棵新树,为了保证新树仍是二叉树,需要增加一个新结点作为新树的根,并将所选的两棵树的根分别作为新根的左右孩子(谁左,谁右无关紧要),将这两个孩子的权值之和作为新树根的权值。
  (3)对新的森林F重复(2),直到森林F中只剩下一棵树为止。这棵树便是哈夫曼树。
注意:
① 初始森林中的n棵二叉树,每棵树有一个孤立的结点,它们既是根,又是叶子
② n个叶子的哈夫曼树要经过n-1次合并,产生n-1个新结点。最终求得的哈夫曼树中共有2n-1个结点。
③ 哈夫曼树是严格的二叉树,没有度数为1的分支结点。

总结:构造哈夫曼树的时候,应该注意以下几点:
(1)带权的节点都是叶子节点
(2)路径长度应该是层数减去1
(3)左孩子、右孩子构造父节点的时候,权值遵循一定大小的关系。(若右孩子大于左孩子,那么接下来的构造都要按这样的大小构造,这样对应于右孩子编码为1,左孩子编码为0,避免哈夫曼编码的过程中出现编码的混乱现象。)
(4)记住,设计电文总长最短的二进制前缀编码,就是以n个字符出现的频率作为权构造一棵哈夫曼树,由哈夫曼树求得的编码就是哈夫曼编码。

3.哈夫曼编码的实现(相关代码直接摘抄网上的数据)

#include
#include
#include
using namespace std;

#define N 10         // 带编码字符的个数,即树中叶结点的最大个数
#define M (2*N-1)    // 树中总的结点数目

class HTNode{        // 树中结点的结构
public: 
    unsigned int weight;
    unsigned int parent,lchild,rchild;
};                    

class HTCode{
public:
    char data;      // 待编码的字符
    int weight;     // 字符的权值
    char code[N];   // 字符的编码
};

void Init(HTCode hc[], int *n){
// 初始化,读入待编码字符的个数n,从键盘输入n个字符和n个权值
    int i;
    printf("input n = ");
    scanf("%d",&(*n));

    printf("\ninput %d character\n",*n);

    fflush(stdin);
    for(i=1; i<=*n; ++i)
        scanf("%c",&hc[i].data);

    printf("\ninput %d weight\n",*n);

    for(i=1; i<=*n; ++i)
        scanf("%d",&(hc[i].weight) );
    fflush(stdin);
}//

void Select(HTNode ht[], int k, int *s1, int *s2){
// ht[1...k]中选择parent为0,并且weight最小的两个结点,其序号由指针变量s1,s2指示
    int i;
    for(i=1; i<=k && ht[i].parent != 0; ++i){ 
        ; ;
    }
    *s1 = i;

    for(i=1; i<=k; ++i){
        if(ht[i].parent==0 && ht[i].weightfor(i=1; i<=k; ++i){
        if(ht[i].parent==0 && i!=*s1)
            break;
    }
    *s2 = i;

    for(i=1; i<=k; ++i){
        if(ht[i].parent==0 && i!=*s1 && ht[i].weightvoid HuffmanCoding(HTNode ht[],HTCode hc[],int n){
// 构造Huffman树ht,并求出n个字符的编码
    char cd[N];
    int i,j,m,c,f,s1,s2,start;
    m = 2*n-1;

    for(i=1; i<=m; ++i){
        if(i <= n)
            ht[i].weight = hc[i].weight;
        else
            ht[i].parent = 0;
        ht[i].parent = ht[i].lchild = ht[i].rchild = 0;
    }

    for(i=n+1; i<=m; ++i){
        Select(ht, i-1, &s1, &s2);
        ht[s1].parent = i;
        ht[s2].parent = i;
        ht[i].lchild = s1;
        ht[i].rchild = s2;
        ht[i].weight = ht[s1].weight+ht[s2].weight;
    }

    cd[n-1] = '\0';

    for(i=1; i<=n; ++i){
        start = n-1;
        for(c=i,f=ht[i].parent; f; c=f,f=ht[f].parent){
            if(ht[f].lchild == c)
                cd[--start] = '0';
            else
                cd[--start] = '1';
        }
        strcpy(hc[i].code, &cd[start]);
    }
}


int main()
{
    int i,m,n,w[N+1];
    HTNode ht[M+1];
    HTCode hc[N+1];
    Init(hc, &n);     // 初始化
    HuffmanCoding(ht,hc,n);   // 构造Huffman树,并形成字符的编码

    for(i=1; i<=n; ++i)  
        printf("\n%c---%s",hc[i].data,hc[i].code);  
    printf("\n");

    return 0;
}

参考博客:
1、http://student.zjzk.cn/course_ware/data_structure/web/shu/shu6.6.1.2.htm
2、http://www.cnblogs.com/mcgrady/p/3329825.html#_label0
3、《数据结构C语言版》–严蔚敏P157
4、http://blog.csdn.net/shuangde800/article/details/7341289

你可能感兴趣的:(c++)