《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码

什么是哈夫曼编码?
哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。

为什么用哈夫曼编码?
主要目的是根据使用频率来最大化节省字符(编码)的存储空间。

哈夫曼编码算法流程图
哈夫曼编码的算法是查找最优路径的一种算法,首先在所有未分配parent域的节点中找出最小的两个节点,将他们的全值相加,组成新的节点,并且将它标记为原来两个最小节点的parent。这样调用递归,最后就能够成一颗完整的哈夫曼树。然后对每个节点进行遍历编码,得到最终的哈夫曼编码库。

哈夫曼编码的基本思想,如图:
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第1张图片
提到哈夫曼编码,就不得不提哈夫曼树
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第2张图片

字符编码表HC=((d,0),(i,10),(a,110),(n,111))

如何构造哈夫曼树?
构造哈夫曼树非常简单,将所有的节点放到一个队列中,用一个节点替换两个频率最低的节点,新节点的频率就是这两个节点的频率之和。这样,新节点就是两个被替换节点的父节点了。如此循环,直到队列中只剩一个节点(树根)。

一、对给定的n个权值{W1,W2,W3,…,Wi,…,Wn}构成n棵二叉树的初始集合F= {T1,T2,T3,…,Ti,…,Tn},其中每棵二叉树Ti中只有一个权值为Wi的根结点,它的左右子树均为空。

二、在F中选取两棵根结点权值最小的树作为新构造的二叉树的左右子树,新二叉树的根结点的权值为其左右子树的根结点的权值之和。

三、从F中删除这两棵树,并把这棵新的二叉树同样以升序排列加入到集合F中。

四、重复二和三两步,直到集合F中只有一棵二叉树为止。

简单直白,来个例子:
如图有A,B,C,D共4棵二叉树,其权值分别为5,7,2,13
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第3张图片
1.选取两棵根结点权值最小的树作为新构造的二叉树的左右子树,即A和C,新二叉树的根结点的权值为其左右子树的根结点的权值之和,即2+5=7
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第4张图片
2.继续在此基础上,选择一棵根节点结点权值小的树作为新构造的二叉树的左子树,即B和7,新二叉树的根结点的权值为其左右子树的根结点的权值之和,即7+7=14
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第5张图片
3.继续在此基础上,选择一棵根节点结点权值小的树作为新构造的二叉树的左子树,即D和14,新二叉树的根结点的权值为其左右子树的根结点的权值
之和,即13+14=27
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第6张图片
4.此时哈夫曼树构成
引入二进制编码
各叶子结点的二进制编码如下:
D(0),B(10),C(110),A(111)

来道例题吧!
1.领会哈夫曼的构造过程以及哈夫曼编码的生产过程
2.构造一棵哈夫曼树,输出对应的哈夫曼编码和平均查找长度
在这里插入图片描述

#include 
#include 
#define N 50 
#define M 2 * N-1 

typedef struct
{
	char data[5]; 
	int weight; 
	int parent; 
	int lchild; 
	int rchild; 
}HTNode;

typedef struct
{
	char cd[N]; 
	int start; 
}HCode;

void CreateHT(HTNode ht[],int n) 
{
	int i,k,lnode,rnode;
	int min1,min2;
	for (i=0;i<2*n-1;i++) 
		ht[i].parent=ht[i].lchild=ht[i].rchild=-1;
	for (i=n;i<2*n-1;i++) 
	{
		min1=min2=32767; 
		lnode = rnode = -1;
		for(k=0;k<=i-1;k++) 
		if(ht[k].parent==-1) 
		{
		if(ht[k].weight<min1)
			{
				min2=min1;
				rnode=lnode;
				min1=ht[k].weight;
				lnode=k;
			}
		else if(ht[k].weight<min2)
			{
				min2=ht[k].weight;
				rnode=k;
			}
		}
	ht[lnode].parent=i;
	ht[rnode].parent=i;
	ht[i].weight=ht[lnode].weight+ht[rnode].weight;
	ht[i].lchild=lnode;
	ht[i].rchild=rnode;
	}
}

void CreateHCode(HTNode ht[],HCode hcd[],int n) 
{
	int i,f,c;
	HCode hc;
	for(i=0;i<n;i++) 
	{
		hc.start=n;
		c=i;
		f=ht[i].parent; 
		while(f!=-1)
		{
			if(ht[f].lchild==c) 
				hc.cd[hc.start--]='0';
			else 
				hc.cd[hc.start--]='1';
			c=f;
			f=ht[f].parent;
		}
		hc.start++; 
		hcd[i]=hc;
	}
}

void DispHCode(HTNode ht[],HCode hcd[],int n) 
{
	int i,k; 
	int sum=0,m=0,j;
	printf("输出哈夫曼编码:\n");
	for (i=0;i<n;i++)
	{
		j=0;
		printf("	%s:\t",ht[i].data);
		for(k=hcd[i].start;k<=n;k++)
		{
			printf("%c",hcd[i].cd[k]);
			j++;
		}
		m+=ht[i].weight;
		sum+=ht[i].weight * j;
		printf("\n");
	}
	printf("\n平均长度=%g\n",1.0 * sum/m);
}

int main()
{
	int n=15,i;
	char * str[]={"The","of","a","to","and","in","that","he","is","at","on","for","His","are","be"};
	int fnum[]={1192,677,541,518,462,450,242,195,190,181,174,157,138,124,123};
	HTNode ht[M];
	HCode hcd[N];
	for(i=0;i<n;i++)
	{
		strcpy(ht[i].data,str[i]);
		ht[i].weight=fnum[i];
	}
	CreateHT(ht,n);
	CreateHCode(ht,hcd,n);
	DispHCode(ht,hcd,n);
	return 1;
}

运行结果:
《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码_第7张图片
哈夫曼树的在编码中的应用
在电文传输中,须要将电文中出现的每一个字符进行二进制编码。在设计编码时须要遵守两个原则:
(1)发送方传输的二进制编码,到接收方解码后必须具有唯一性,即解码结果与发送方发送的电文全然一样;
(2)发送的二进制编码尽可能地短。以下我们介绍两种编码的方式。

1.等长编码
这样的编码方式的特点是每一个字符的编码长度同样(编码长度就是每一个编码所含的二进制位数)。如果字符集仅仅含有4个字符A,B,C,D,用二进制两位表示的编码分别为00,01,10,11。若如今有一段电文为:ABACCDA,则应发送二进制序列:00010010101100,总长度为14位。当接收方接收到这段电文后,将按两位一段进行译码。这样的编码的特点是译码简单且具有唯一性,但编码长度并非最短的。

2.不等长编码
在传送电文时,为了使其二进制位数尽可能地少,能够将每一个字符的编码设计为不等长的,使用频度较高的字符分配一个相对照较短的编码,使用频度较低的字符分配一个比較长的编码。比如,能够为A,B,C,D四个字符分别分配0,00,1,01,并可将上述电文用二进制序列:000011010发送,其长度仅仅有9个二进制位,但随之带来了一个问题,接收方接到这段电文后无法进行译码,由于无法断定前面4个0是4个A,1个B、2个A,还是2个B,即译码不唯一,因此这样的编码方法不可使用。

哈夫曼编码
(1)利用字符集中每一个字符的使用频率作为权值构造一个哈夫曼树;
(2)从根结点开始,为到每一个叶子结点路径上的左分支赋予0,右分支赋予1,并从根到叶子方向形成该叶子结点的编码;

你可能感兴趣的:(《数据结构》C语言版——构造哈夫曼树和生成哈夫曼编码)