贪心算法之哈夫曼编码问题

1、问题

通常的编码方法有固定长度编码和不等长度编码两种。这是一个设计最优编码方案的问

题,目的是使总码长度最短。这个问题利用字符的使用频率来编码,是不等长编码方法,使

得经常使用的字符编码较短,不常使用的字符编码较长。如果采用等长的编码方案,假设所

有字符的编码都等长,则表示 n 个不同的字符需要 log n位。例如,3 个不同的字符 ab⎢⎥

c,至少需要 2 位二进制数表示,a 00,b 01,c 10。如果每个字符的使用频率相等,固定长度编码是空间效率最高的方法。

不等长编码方法需要解决两个关键问题:(1)编码尽可能短

我们可以让使用频率高的字符编码较短,使用频率低的编码较长,这种方法可以提高压缩率,节省空间,也能提高运算和通信速度。即频率越高,编码越短

(2)不能有二义性
例如,
ABCD 四个字符如果编码如下。
A:0B:1C:01D:10
那么现在有一列数
0110,该怎样翻译呢?是翻译为 ABBA,ABD,CBA,还是 CD?那

么如何消除二义性呢?解决的办法是:任何一个字符的编码不能是另一个字符编码的前缀,即前缀码特性

1952 年,数学家 D.A.Huffman 提出了根据字符在文件中出现的频率,用 01 的数字串表示各字符的最佳编码方式,称为哈夫曼(Huffman)编码。哈夫曼编码很好地解决了上述两个关键问题,被广泛应用于数据压缩,尤其是远距离通信和大容量数据存储方面,常用的JPEG 图片就是采用哈夫曼编码压缩的。 



2、分析

哈夫曼编码的基本思想是以字符的使用频率作为权构建一棵哈夫曼树,然后利用哈夫曼树对字符进行编码。构造一棵哈夫曼树,是将所要编码的字符作为叶子结点,该字符在文件中的使用频率作为叶子结点的权值,以自底向上的方式,通过 n1 次的“合并”运算后构造出的一棵树,核心思想是权值越大的叶子离根越近。

哈夫曼算法采取的贪心策略是每次从树的集合中取出没有双亲且权值最小的两棵树作为左右子树 

如下图:

贪心算法之哈夫曼编码问题_第1张图片



3、代码实现

#include 
using namespace std;

//最大字符编码数组长度
#define MAXCODELEN 100
//最大哈夫曼节点结构体数组个数
#define MAXHAFF 100
//最大哈夫曼编码结构体数组的个数
#define MAXCODE 100
#define MAXWEIGHT  10000;


typedef struct Haffman
{
    //权重
    int weight;
    //字符
    char ch;
    //父节点
    int parent;
    //左儿子节点
    int leftChild;
    //右儿子节点
    int rightChild;
}HaffmaNode;

typedef struct Code
{
    //字符的哈夫曼编码的存储
    int code[MAXCODELEN];
    //从哪个位置开始
    int start;
}HaffmaCode;

HaffmaNode haffman[MAXHAFF];
HaffmaCode code[MAXCODE];

void buildHaffman(int all)
{
    //哈夫曼节点的初始化之前的工作, weight为0,parent,leftChile,rightChile都为-1
    for (int i = 0; i < all * 2 - 1; ++i)
    {
        haffman[i].weight = 0;
        haffman[i].parent = -1;
        haffman[i].leftChild = -1;
        haffman[i].rightChild = -1;
    }
    std::cout << "请输入需要哈夫曼编码的字符和权重大小" << std::endl;
    for (int i = 0; i < all; i++)
    {
        std::cout << "请分别输入第个" << i << "哈夫曼字符和权重" << std::endl;
        std::cin >> haffman[i].ch;
        std::cin >> haffman[i].weight;
    }
    //每次找出最小的权重的节点,生成新的节点,需要all - 1 次合并
    int x1, x2, w1, w2;
    for (int i = 0; i < all - 1; ++i)
    {
        x1 = x2 = -1;
        w1 = w2 = MAXWEIGHT;
        //注意这里每次是all + i次里面便利
        for (int j = 0; j < all + i; ++j)
        {
            //得到最小权重的节点
            if (haffman[j].parent == -1 && haffman[j].weight < w1)
            {
                //如果每次最小的更新了,那么需要把上次最小的给第二个最小的
                w2 = w1;
                x2 = x1;

                x1 = j;
                w1 = haffman[j].weight;
            }
            //这里用else if而不是if,是因为它们每次只选1个就可以了。
            else if(haffman[j].parent == -1 && haffman[j].weight < w2)
            {
                x2 = j;
                w2 = haffman[j].weight;
            }
        }
        //么次找到最小的两个节点后要记得合并成一个新的节点
        haffman[all + i].leftChild = x1;
        haffman[all + i].rightChild = x2;
        haffman[all + i].weight = w1 + w2;
        haffman[x1].parent = all + i;
        haffman[x2].parent = all + i;
        std::cout << "x1 is" << x1 <<" x1 parent is"<> all;
    if (all <= 0)
    {
        std::cout << "您输入的个数有误" << std::endl;
        return -1;
    }
    buildHaffman(all);
    printCode(all);
    for (int i = 0; i < all; ++i)
    {
        std::cout << haffman[i].ch << ": Haffman Code is:";
        for (int j = code[i].start + 1; j < all; ++j)
        {
            std::cout << code[i].code[j];
        }
        std::cout << std::endl;
    }
    return 0;
}


4、运行结果

/**
 *
 1111deMacBook-Pro:Music a1111$ g++ HuffmanCode.cpp -o HuffmanCodeu
 1111deMacBook-Pro:Music a1111$ ./HuffmanCode 
 请输入有多少个哈夫曼字符
 6
 请输入需要哈夫曼编码的字符和权重大小
 请分别输入第个0哈夫曼字符和权重
 a 5
 请分别输入第个1哈夫曼字符和权重
 b 32
 请分别输入第个2哈夫曼字符和权重
 c 18
 请分别输入第个3哈夫曼字符和权重
 d 7
 请分别输入第个4哈夫曼字符和权重
 e 25
 请分别输入第个5哈夫曼字符和权重
 f 13
 x1 is0 x1 parent is6 x2 is3 x2 parent is 6 new Node is 6new weight is12
 x1 is6 x1 parent is7 x2 is5 x2 parent is 7 new Node is 7new weight is25
 x1 is2 x1 parent is8 x2 is4 x2 parent is 8 new Node is 8new weight is43
 x1 is7 x1 parent is9 x2 is1 x2 parent is 9 new Node is 9new weight is57
 x1 is8 x1 parent is10 x2 is9 x2 parent is 10 new Node is 10new weight is100
 hCode.code[5] = 0
 hCode.code[4] = 0
 hCode.code[3] = 0
 hCode.code[2] = 1
 hCode.code[5] = 1
 hCode.code[4] = 1
 hCode.code[5] = 0
 hCode.code[4] = 0
 hCode.code[5] = 1
 hCode.code[4] = 0
 hCode.code[3] = 0
 hCode.code[2] = 1
 hCode.code[5] = 1
 hCode.code[4] = 0
 hCode.code[5] = 1
 hCode.code[4] = 0
 hCode.code[3] = 1
 a: Haffman Code is:1000
 b: Haffman Code is:11
 c: Haffman Code is:00
 d: Haffman Code is:1001
 e: Haffman Code is:01
 f: Haffman Code is:101
 */


5、总结
1、用贪心算法

2、求一组数据最小的元素的时候,要记得最小的更新了需要把最下的数据赋值给第二小的

3、遍历编码循环条件父节点不为-1

4、我们先拿到父节点,然后判断左节点是否为当前值,如果是取节点0
     否则取节点1,这里的c会变动,所以不要用i表示,我们用c保存当前变量i

5、时间复杂度 n + (n + 1) + (n + 2) + ... +(n + (n -2)) = (n -1) *(3n - 2) /2

     时间复杂度差不多接近n*n

6、空间复杂度all * MAXCODELEN

你可能感兴趣的:(趣学算法,贪心算法,哈夫曼编码,权重,字符)