算法作业11-----最优前缀编码

1. 问题

代码(码字) : Q {001, 00, 010, 01}表示字符a,b,c,d
同一序列: 0100001
产生两种译码(产生歧义) : 01 00 001; 010 00 01

●二元前缀码:任何字符的代码不能作为其他字符代码的前缀利用二元前缀码译码:从第一个字符开始一次读入每个字符(0或1),如果发现读到的子串与某个码字相等,就将这个子串译作对应的码字;然后从下一个字符开始继续这个过程,直到读完输入的字符串为止。.
●二元前缀编码存储::二叉树结构,每个字符作为树叶,对应这个字符的前缀码看作根到这片树叶的一条路径,每个结点通向左二子的边记作0,通向右儿子的边记作1.
●字符集合C= {x1,x2,…,xn}
●xi的频率是f(xi)
●d(xi)表示字符x二进制位数,也就是x的码长
●二元前缀编码:二叉树
●码字:树叶
●码字的二进制位数:树叶的深度
●存储一个字符所使用的二进制数的平均值
■B=∑(n) (i=1) f(xi)d(xi)
●最优二元前缀码:每个码字平均使用二进制位数最小的前缀码,称为最优二元前缀码。

问题:给定字符集C= {x1,x2,…,xn}和每个字符的频率f(xi),求关于C的一个最优前缀码。

2. 解析

构造最优前缀码的贪心算法就是哈夫曼算法(Huffman)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200518221020431.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0lJSVpPTkU=,size_16,color_FFFFFF,t_70)

算法作业11-----最优前缀编码_第1张图片

3. 设计

第一步:初始化n个单节点的树,并为它们标上字母表中的字符。把每个字符的概率记在树的根中,用来指出树的权重(更一般地来说, 树的权重等于树中所有叶子的概率之和)。

第二步:重复下面的步骤,直到只剩一棵单独的树。找到两棵权重最小的树(对于权重相同的树,可任意选择其一)。把它们作为新树中的左右子树,并把其权重之和作为新的权重记录在新树的根中。

4. 分析

O(nlogn)频率排序; for 循环O(n),插入操作O(logn),算法时间复杂度是O(nlogn)

5. 源码

https://github.com/Lu-ziyan/-/blob/master/%E6%9C%80%E4%BC%98%E5%89%8D%E7%BC%80%E7%BC%96%E7%A0%81.cpp

你可能感兴趣的:(算法作业11-----最优前缀编码)