哈夫曼树&哈夫曼编码

哈夫曼树 Huffman Tree

给定n个权值作为n叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)

哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。

假设7个叶子节点依次为2,4,18,7,9,5和8.

(1) 从小到大排序为2,4,5,7,8,9,18

哈夫曼树&哈夫曼编码_第1张图片

(2) 取最小两个节点向上构造2+4=6,

哈夫曼树&哈夫曼编码_第2张图片

 (3)重新排序得,5,6,7,8,9,18

哈夫曼树&哈夫曼编码_第3张图片

重复步骤(1)(2)(3)直至剩下一个根节点,得到最优二叉树

哈夫曼树&哈夫曼编码_第4张图片

 

 哈夫曼编码 Huffman Coding

哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。

在数据通信中,需要将传送的文字转换成二进制的字符串,用0,1码的不同排列来表示字符。

例如,需传送的报文为“AFTER DATA EAR ARE ART AREA”,

        这里用到的字符集为“A,E,R,T,F,D”,

        各字母出现的次数为{8,4,5,3,1,1}。

现要求为这些字母设计编码,要区别6个字母。

最简单的二进制编码方式是等长编码

固定采用3位二进制,可分别用000、001、010、011、100、101对“A,E,R,T,F,D”进行编码发送,当对方接收报文时再按照三位一分进行译码。

显然编码的长度取决报文中不同字符的个数。若报文中可能出现26个不同字符,则固定编码长度为5。

然而,传送报文时总是希望总长度尽可能短。

在实际应用中,各个字符的出现频度或使用次数是不相同的,如A、B、C的使用频率远远高于X、Y、Z,自然会想到设计编码时,让使用频率高的用短码,使用频率低的用长码,以优化整个报文编码。

哈夫曼树&哈夫曼编码_第5张图片

 哈夫曼树&哈夫曼编码_第6张图片

 

 

你可能感兴趣的:(笔记,数据结构,算法)