什么是哈夫曼编码?
哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。
为什么用哈夫曼编码?
主要目的是根据使用频率来最大化节省字符(编码)的存储空间。
哈夫曼编码算法流程图
哈夫曼编码的算法是查找最优路径的一种算法,首先在所有未分配parent域的节点中找出最小的两个节点,将他们的全值相加,组成新的节点,并且将它标记为原来两个最小节点的parent。这样调用递归,最后就能够成一颗完整的哈夫曼树。然后对每个节点进行遍历编码,得到最终的哈夫曼编码库。
哈夫曼编码的基本思想,如图:
提到哈夫曼编码,就不得不提哈夫曼树
字符编码表HC=((d,0),(i,10),(a,110),(n,111))
如何构造哈夫曼树?
构造哈夫曼树非常简单,将所有的节点放到一个队列中,用一个节点替换两个频率最低的节点,新节点的频率就是这两个节点的频率之和。这样,新节点就是两个被替换节点的父节点了。如此循环,直到队列中只剩一个节点(树根)。
一、对给定的n个权值{W1,W2,W3,…,Wi,…,Wn}构成n棵二叉树的初始集合F= {T1,T2,T3,…,Ti,…,Tn},其中每棵二叉树Ti中只有一个权值为Wi的根结点,它的左右子树均为空。
二、在F中选取两棵根结点权值最小的树作为新构造的二叉树的左右子树,新二叉树的根结点的权值为其左右子树的根结点的权值之和。
三、从F中删除这两棵树,并把这棵新的二叉树同样以升序排列加入到集合F中。
四、重复二和三两步,直到集合F中只有一棵二叉树为止。
简单直白,来个例子:
如图有A,B,C,D共4棵二叉树,其权值分别为5,7,2,13
1.选取两棵根结点权值最小的树作为新构造的二叉树的左右子树,即A和C,新二叉树的根结点的权值为其左右子树的根结点的权值之和,即2+5=7
2.继续在此基础上,选择一棵根节点结点权值小的树作为新构造的二叉树的左子树,即B和7,新二叉树的根结点的权值为其左右子树的根结点的权值之和,即7+7=14
3.继续在此基础上,选择一棵根节点结点权值小的树作为新构造的二叉树的左子树,即D和14,新二叉树的根结点的权值为其左右子树的根结点的权值
之和,即13+14=27
4.此时哈夫曼树构成
引入二进制编码
各叶子结点的二进制编码如下:
D(0),B(10),C(110),A(111)
来道例题吧!
1.领会哈夫曼的构造过程以及哈夫曼编码的生产过程
2.构造一棵哈夫曼树,输出对应的哈夫曼编码和平均查找长度
#include
#include
#define N 50
#define M 2 * N-1
typedef struct
{
char data[5];
int weight;
int parent;
int lchild;
int rchild;
}HTNode;
typedef struct
{
char cd[N];
int start;
}HCode;
void CreateHT(HTNode ht[],int n)
{
int i,k,lnode,rnode;
int min1,min2;
for (i=0;i<2*n-1;i++)
ht[i].parent=ht[i].lchild=ht[i].rchild=-1;
for (i=n;i<2*n-1;i++)
{
min1=min2=32767;
lnode = rnode = -1;
for(k=0;k<=i-1;k++)
if(ht[k].parent==-1)
{
if(ht[k].weight<min1)
{
min2=min1;
rnode=lnode;
min1=ht[k].weight;
lnode=k;
}
else if(ht[k].weight<min2)
{
min2=ht[k].weight;
rnode=k;
}
}
ht[lnode].parent=i;
ht[rnode].parent=i;
ht[i].weight=ht[lnode].weight+ht[rnode].weight;
ht[i].lchild=lnode;
ht[i].rchild=rnode;
}
}
void CreateHCode(HTNode ht[],HCode hcd[],int n)
{
int i,f,c;
HCode hc;
for(i=0;i<n;i++)
{
hc.start=n;
c=i;
f=ht[i].parent;
while(f!=-1)
{
if(ht[f].lchild==c)
hc.cd[hc.start--]='0';
else
hc.cd[hc.start--]='1';
c=f;
f=ht[f].parent;
}
hc.start++;
hcd[i]=hc;
}
}
void DispHCode(HTNode ht[],HCode hcd[],int n)
{
int i,k;
int sum=0,m=0,j;
printf("输出哈夫曼编码:\n");
for (i=0;i<n;i++)
{
j=0;
printf(" %s:\t",ht[i].data);
for(k=hcd[i].start;k<=n;k++)
{
printf("%c",hcd[i].cd[k]);
j++;
}
m+=ht[i].weight;
sum+=ht[i].weight * j;
printf("\n");
}
printf("\n平均长度=%g\n",1.0 * sum/m);
}
int main()
{
int n=15,i;
char * str[]={"The","of","a","to","and","in","that","he","is","at","on","for","His","are","be"};
int fnum[]={1192,677,541,518,462,450,242,195,190,181,174,157,138,124,123};
HTNode ht[M];
HCode hcd[N];
for(i=0;i<n;i++)
{
strcpy(ht[i].data,str[i]);
ht[i].weight=fnum[i];
}
CreateHT(ht,n);
CreateHCode(ht,hcd,n);
DispHCode(ht,hcd,n);
return 1;
}
运行结果:
哈夫曼树的在编码中的应用
在电文传输中,须要将电文中出现的每一个字符进行二进制编码。在设计编码时须要遵守两个原则:
(1)发送方传输的二进制编码,到接收方解码后必须具有唯一性,即解码结果与发送方发送的电文全然一样;
(2)发送的二进制编码尽可能地短。以下我们介绍两种编码的方式。
1.等长编码
这样的编码方式的特点是每一个字符的编码长度同样(编码长度就是每一个编码所含的二进制位数)。如果字符集仅仅含有4个字符A,B,C,D,用二进制两位表示的编码分别为00,01,10,11。若如今有一段电文为:ABACCDA,则应发送二进制序列:00010010101100,总长度为14位。当接收方接收到这段电文后,将按两位一段进行译码。这样的编码的特点是译码简单且具有唯一性,但编码长度并非最短的。
2.不等长编码
在传送电文时,为了使其二进制位数尽可能地少,能够将每一个字符的编码设计为不等长的,使用频度较高的字符分配一个相对照较短的编码,使用频度较低的字符分配一个比較长的编码。比如,能够为A,B,C,D四个字符分别分配0,00,1,01,并可将上述电文用二进制序列:000011010发送,其长度仅仅有9个二进制位,但随之带来了一个问题,接收方接到这段电文后无法进行译码,由于无法断定前面4个0是4个A,1个B、2个A,还是2个B,即译码不唯一,因此这样的编码方法不可使用。
哈夫曼编码
(1)利用字符集中每一个字符的使用频率作为权值构造一个哈夫曼树;
(2)从根结点开始,为到每一个叶子结点路径上的左分支赋予0,右分支赋予1,并从根到叶子方向形成该叶子结点的编码;