word2vec之霍夫曼树的实现


1.      霍夫曼树的基本要点

判定过程最优的二叉树是霍夫曼树。

路径:树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。

路径长度:路径上的分支数目称为路径长度。

树的路径长度:从根结点到每一个叶子结点的路径长度之和就是这棵树的路径长度。

带权值的路径长度:如果树中每一个叶子结点都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带权路径长度。

 

树的带权值路径长度:


带权路径最小的二叉树就是判定过程最优二叉树,即霍夫曼二叉树。其中,权值越大的叶子结点越接近根结点。

 

2.      Word2vec中霍夫曼树的实现

其中,count存各个词的词频,就是叶子结点的权值;binary存霍夫曼编码,parent_node存各父结点的位置。由于满二叉树的节点数m=2n-1, n为叶子结点数,所以以上3个数组的元素个数均为2*vocab_size-1.前n个存叶子结点,后n-1个存父结点。

 

具体步骤:

word2vec之霍夫曼树的实现_第1张图片

以后各次循环如步骤2,直到2n-1也被赋值,整棵树建立完成。


程序如下:

void CreateBinaryTree() {
  long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH];
  char code[MAX_CODE_LENGTH];
  long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  //节点的权重,叶子节点的权重为cn,父节点的权重为其子结点权重和。
  long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));   //表明左右结点,左结点为0,右节点为1.
  long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  //父结点。
  for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn;
  for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15;
  pos1 = vocab_size - 1;
  pos2 = vocab_size;
  // Following algorithm constructs the Huffman tree by adding one node at a time
  for (a = 0; a < vocab_size - 1; a++) {
    // First, find two smallest nodes 'min1, min2'
    if (pos1 >= 0) {
      if (count[pos1] < count[pos2]) {  //根据词频来确定位置  词频作为权值?
        min1i = pos1;
        pos1--;
      } else {
        min1i = pos2;
        pos2++;
      }
    } else {
      min1i = pos2;
      pos2++;
    }
    if (pos1 >= 0) {
      if (count[pos1] < count[pos2]) {
        min2i = pos1;
        pos1--;
      } else {
        min2i = pos2;
        pos2++;
      }
    } else {
      min2i = pos2;
      pos2++;
    }
    count[vocab_size + a] = count[min1i] + count[min2i];  //把权值赋给父结点
    parent_node[min1i] = vocab_size + a; //定义上面两点的父结点。
    parent_node[min2i] = vocab_size + a;
    binary[min2i] = 1;   //给右结点贴标签。
  }
  // Now assign binary code to each vocabulary word
  for (a = 0; a < vocab_size; a++) {
    b = a;
    i = 0;
    while (1) {
      code[i] = binary[b];  //code存huffman编码。
      point[i] = b;  //point专门存父结点
      i++;
      b = parent_node[b];
      if (b == vocab_size * 2 - 2) break;
    }
    vocab[a].codelen = i;  //huffman编码的长度。  code和codelen可以用于定位词的位置。
    vocab[a].point[0] = vocab_size - 2;
    for (b = 0; b < i; b++) {  //将每个词对应的huffman路径写到point里。
      vocab[a].code[i - b - 1] = code[b];
      vocab[a].point[i - b] = point[b] - vocab_size;  //每个结点都存入其所有的父结点的位置。
    }
  }
  free(count);
  free(binary);
  free(parent_node);
}


 

你可能感兴趣的:(NLP)