Tom Hardy

Word2vec 源码详解

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨玩人@博客

来源丨https://blog.csdn.net/jeryjeryjery/article/details/80245924

编辑丨阿泽的学习笔记

已经看了很久的word2vec，但是发现了很多不同版本的解释，再加上原始论文没有提到太多的细节，所以打算直接看一遍源码，一方面可以加深自己理解；另一方面，以后也可以做适当的改进！

先给出源码中执行的流程图，按照流程图对代码进行详细的解读，流程图如下:

训练部分的流程图如下：

讲解将会按照这个训练过程来！

一、训练参数

注意，这些参数都是「全局参数」，包括以下参数:

size: 对应代码中layer1_size，表示词向量的维度，默认值是100。
train: 对应代码中train_file，表示语料库文件路径。
save-vocab: 对应代码中save_vocab_file, 词汇表保存路径。
read-vocab: 对应代码中read_vocab_file，表示已有的词汇表文件路径，直接读取，不用从语料库学习得来。
debug: 对应代码中debug_mode，表示是否选择debug模型，值大于1表示开启，默认是2。开启debug会打印一些信息。
binary: 对应代码中全局变量binary，表示文件保存方式，1表示按二进制保存，0表示按文本保存，默认是0.
cbow: 对应代码中cbow， 1表示按cbow模型训练， 0表示按skip模式训练，默认是1。
alpha: 对应代码中alpha，表示学习率。skip模式下默认为0.025， cbow模式下默认是0.05。
output: 对应代码中output_file，表示词向量保存路径。
window: 对应代码中window，表示训练窗口大小。默认是5
sample: 对应代码中sample，表示下采样阀值。
hs: 对应代码中hs，表示按huffman softmax模式训练。默认是0，表示不使用hs。
negative: 对应代码中negative，表示按负采样模式训练，默认是5。值为0表示不采用负采样训练；如果使用，值一般为3到10。
threads: 对应代码中num_threads，训练线程数，一般为12。
iter: 对应代码中iter，训练迭代次数，默认是5.
min-count: 对应代码中min_count，表示最小出现频率，低于这个频率的词会被移除词汇表。默认值是5
classes: 对应代码中classes，表示聚类中心数，默认是0，表示不启用聚类。

以上参数都对应了代码中一些全局变量，全局变量具体含义，参考上述参数说明！

二、预生成expTable

word2vec计算过程中用上下文预测中心词或者用中心词预测上下文，都需要进行预测；而word2vec中采用的预测方式是逻辑回归分类，需要用到sigmoid函数，具体函数形式为:

在训练过程中需要用到大量的sigmoid值计算，如果每次都临时去算 exex的值，将会影响性能；当对精度的要求不是很严格的时候，我们可以采用近似的运算。在word2vec中，将区间 「[-MAX_EXP, MAX_EXP]」(代码中MAX_EXP默认值为6)等距划分为 「EXP_TABLE_SIZE」等份，并将每个区间的sigmoid值计算好存入到expTable中。在需要使用时，只需要确定所属的区间，属于哪一份，然后直接去数组中查找。「expTable」初始化代码如下:

expTable = (real *)malloc((EXP_TABLE_SIZE + 1) * sizeof(real));       //初始化expTable，近似逼近sigmoid(x)值，x区间为[-MAX_EXP, MAX_EXP]，分成EXP_TABLE_SIZE份
//将[-MAX_EXP, MAX_EXP]分成EXP_TABLE_SIZE份
for (i = 0; i < EXP_TABLE_SIZE; i++) {
    expTable[i] = exp((i / (real)EXP_TABLE_SIZE * 2 - 1) * MAX_EXP);   // Precompute the exp() table
    expTable[i] = expTable[i] / (expTable[i] + 1);                     // Precompute f(x) = x / (x + 1)
}

三、构建词汇库

构建词汇库过程中，先判断是否已经有处理好现成的词汇库，有的话直接读取，没有的话再进行训练。

「词汇表训练过程」分为以下几个步骤：「1.读取一个单词」，「2.计算单词对应hash值」，「3.通过hash值得到单词在词汇表中索引」，「4.将单词加入到词汇表」， 「5.对词汇表根据词频进行降序排序」, 「6.保存训练好的词汇表」。依次介绍以上几个步骤。首先给出词汇表中每个词对应的「结构体」：

//词汇中每个word对应的结构体
struct vocab_word {
    long long cn;                     //词频
    int *point;                       //记录huffman树中父节点索引， 自顶向下
    char *word, *code, codelen;       //word表示该单词；code表示Huffman编码表，记录父节点是左节点还是右节点；codelen表示码值表长度
};

「1.读取一个单词对应代码」

// Reads a single word from a file, assuming space + tab + EOL to be word boundaries
//从文件中读取单个单词，假设单词之间通过空格或者tab键或者EOL键进行分割的
void ReadWord(char *word, FILE *fin) {
  int a = 0, ch;
  while (!feof(fin)) {
    ch = fgetc(fin);                                             //读一个词
    if (ch == 13) continue;                                      //如果是换行符                                  
    if ((ch == ' ') || (ch == '\t') || (ch == '\n')) {           //代表一个单词结束的边界
      if (a > 0) {                                               //如果读到了单词但是遇到了换行符，
        if (ch == '\n') ungetc(ch, fin);                         //退回到流中
        break;
      }
      if (ch == '\n') {                                          //仅仅读到了换行符
        strcpy(word, (char *)"");                            //将赋予给word
        return;
      } else continue;
    }
    word[a] = ch;
    a++;
    if (a >= MAX_STRING - 1) a--;   // Truncate too long words   //截断
  }
  word[a] = 0;                                                   //最后一个字符是'\0'
}

「2.计算单词对应的hash值」

// Returns hash value of a word
//返回一个词对应的hash值
int GetWordHash(char *word) {
  unsigned long long a, hash = 0;
  for (a = 0; a < strlen(word); a++) hash = hash * 257 + word[a];
  hash = hash % vocab_hash_size;
  return hash;
}

「3.通过hash值得到word在词汇表中索引」使用到了开放定址法，关于开放地址法，参考这里。

//开放地址发得到词的位置
int SearchVocab(char *word) {
  unsigned int hash = GetWordHash(word);                                     //获得索引
  while (1) {
    if (vocab_hash[hash] == -1) return -1;
    if (!strcmp(word, vocab[vocab_hash[hash]].word)) return vocab_hash[hash];
    hash = (hash + 1) % vocab_hash_size;                                     //开放定址法
  }
  return -1;
}

wrod2vec中使用「ReadWordIndex()函数」直接整合了步骤1、步骤2和步骤3，代码如下：

// Reads a word and returns its index in the vocabulary
int ReadWordIndex(FILE *fin) {
  char word[MAX_STRING];                     
  ReadWord(word, fin);                                   //从文件流中读取一个单词
  if (feof(fin)) return -1;
  return SearchVocab(word);                              //返回对应的词汇表中索引
}

「4.将word加入到词汇表」

// Adds a word to the vocabulary
//将word加入到词汇表
int AddWordToVocab(char *word) {
  unsigned int hash, length = strlen(word) + 1;
  if (length > MAX_STRING) length = MAX_STRING;               //规定每个word不超过MAX_STRING个字符
  vocab[vocab_size].word = (char *)calloc(length, sizeof(char));
  strcpy(vocab[vocab_size].word, word);        //结构体的word词
  vocab[vocab_size].cn = 0;
  vocab_size++;
  // Reallocate memory if needed       //动态扩展内存
  if (vocab_size + 2 >= vocab_max_size) {
    vocab_max_size += 1000;              //词汇量加上1000
    vocab = (struct vocab_word *)realloc(vocab, vocab_max_size * sizeof(struct vocab_word));
  }
  hash = GetWordHash(word);
  while (vocab_hash[hash] != -1) hash = (hash + 1) % vocab_hash_size;   //得到word实际对应的hash值
  vocab_hash[hash] = vocab_size - 1;     //通过hash值获得word在vocab中索引
  return vocab_size - 1;       //返回单词对应索引
}

「5.对词汇表进行排序」 排序需要先尽力一个比较器，这里构造了一个降序排列的比较器，代码如下：

// Used later for sorting by word counts
//构造一个比较器，用来排序，降序
int VocabCompare(const void *a, const void *b) {
    return ((struct vocab_word *)b)->cn - ((struct vocab_word *)a)->cn;
}


// Sorts the vocabulary by frequency using word counts
void SortVocab() {
  int a, size;
  unsigned int hash;
  // Sort the vocabulary and keep  at the first position
  qsort(&vocab[1], vocab_size - 1, sizeof(struct vocab_word), VocabCompare);
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;
  size = vocab_size;
  train_words = 0;
  for (a = 0; a < size; a++) {
    // Words occuring less than min_count times will be discarded from the vocab
    //频率低于一定程度的词会被抛弃掉
    if ((vocab[a].cn < min_count) && (a != 0)) {
      vocab_size--;
      free(vocab[a].word);
    } else {
      // Hash will be re-computed, as after the sorting it is not actual
      //因为排序之后顺序打乱，会重新计算一次hash值
      hash=GetWordHash(vocab[a].word);
      while (vocab_hash[hash] != -1) hash = (hash + 1) % vocab_hash_size;
      vocab_hash[hash] = a;
      train_words += vocab[a].cn;
    }
  }
  //重新规划内存大小
  vocab = (struct vocab_word *)realloc(vocab, (vocab_size + 1) * sizeof(struct vocab_word));
  // Allocate memory for the binary tree construction
  for (a = 0; a < vocab_size; a++) {
    vocab[a].code = (char *)calloc(MAX_CODE_LENGTH, sizeof(char));
    vocab[a].point = (int *)calloc(MAX_CODE_LENGTH, sizeof(int));
  }
}

「6.保存训练好的词汇表」

//保存学习到的词汇文件表
void SaveVocab() {
  long long i;
  FILE *fo = fopen(save_vocab_file, "wb");
  for (i = 0; i < vocab_size; i++) 
    fprintf(fo, "%s %lld\n", vocab[i].word, vocab[i].cn);  //保存单词和词频
  fclose(fo);
}

代码中还有一个词汇表裁剪函数，当词汇表中词汇量大于一定值时，会进行裁剪，先裁掉频率低的词，然后再裁剪掉频率高的词，直到词汇量满足要求，代码如下:

// Reduces the vocabulary by removing infrequent tokens
//对于频率小于min_reduce的词将会被裁剪掉
void ReduceVocab() {
  int a, b = 0;
  unsigned int hash;
  //仅仅一个数组就实现了裁剪过程
  for (a = 0; a < vocab_size; a++) if (vocab[a].cn > min_reduce) {
    vocab[b].cn = vocab[a].cn;
    vocab[b].word = vocab[a].word;
    b++;
  } else free(vocab[a].word);
  vocab_size = b;
  //重新设置hash值
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;
  for (a = 0; a < vocab_size; a++) {
    // Hash will be re-computed, as it is not actual
    hash = GetWordHash(vocab[a].word);
    while (vocab_hash[hash] != -1) hash = (hash + 1) % vocab_hash_size;
    vocab_hash[hash] = a;
  }
  fflush(stdout);
  min_reduce++;     //每次裁剪之后都会提高最低频率数
}

如果已经有训练好的词汇表，可以直接读取，不需要通过语料库进行训练，代码如下:

//从已有的词汇文件中直接读取，不用临时去学习
void ReadVocab() {
  long long a, i = 0;
  char c;
  char word[MAX_STRING];
  FILE *fin = fopen(read_vocab_file, "rb");
  if (fin == NULL) {               //判断文件是否存在
    printf("Vocabulary file not found\n");
    exit(1);
  }
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;  //vocab_hash值默认为-1
  vocab_size = 0;
  while (1) {                        //不停读取，直到文件末尾
    ReadWord(word, fin);          //从文件流中读取一个单词到word中
    if (feof(fin)) break;
    a = AddWordToVocab(word);            //将单词加入到词汇表            
    fscanf(fin, "%lld%c", &vocab[a].cn, &c);     //读取词频到vocav.cn中，换行符                    
    i++;
  }
  SortVocab();
  if (debug_mode > 0) {
    printf("Vocab size: %lld\n", vocab_size);
    printf("Words in train file: %lld\n", train_words);
  }
  fin = fopen(train_file, "rb");
  if (fin == NULL) {
    printf("ERROR: training data file not found!\n");
    exit(1);
  }
  fseek(fin, 0, SEEK_END);     //将读取指针定位到文件尾部
  file_size = ftell(fin);  //得到离头部偏离值，获取文件大小
  fclose(fin);
}

词汇库生成过程由「LearnVocabFromTrainFile()函数」组合以上步骤来完成，代码如下：

//整合上面的文件操作
void LearnVocabFromTrainFile() {
  char word[MAX_STRING];
  FILE *fin;
  long long a, i;
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;    //hash值初始为-1
  fin = fopen(train_file, "rb");
  if (fin == NULL) {
    printf("ERROR: training data file not found!\n");
    exit(1);
  }
  vocab_size = 0;
  AddWordToVocab((char *)"");                              //将''添加到词汇表，换行符就是用这个表示
  while (1) {
    ReadWord(word, fin);
    if (feof(fin)) break;
    train_words++;
    if ((debug_mode > 1) && (train_words % 100000 == 0)) {
      printf("%lldK%c", train_words / 1000, 13);
      fflush(stdout);
    }
    i = SearchVocab(word);                                     //查找该词的位置
    if (i == -1) {                                             //还未加入到词汇表                   
      a = AddWordToVocab(word);
      vocab[a].cn = 1;
    } else vocab[i].cn++;                                      //已经加入到词汇表
    if (vocab_size > vocab_hash_size * 0.7) ReduceVocab();     //裁剪词操作
  }
  SortVocab();                                                 //排序
  if (debug_mode > 0) {
    printf("Vocab size: %lld\n", vocab_size);
    printf("Words in train file: %lld\n", train_words);
  }
  file_size = ftell(fin);
  fclose(fin);
}

四、初始化网络

初始化网络包括以下几个过程：「1.初始化网络参数」， 「2.构建哈夫曼树」， 「3，初始化负采样概率表」。

1.初始化网络参数

网络中的参数主要包括「syn0,syn1和syn1neg」。

syn0: 我们需要得到的词向量，源码中使用一个real(float)类型的一维数组表示，注意是一个一维数组！
      容量大小为vocab_size * layer1_size，即 词汇量 * 词向量维度。

syn1: huffman树中，包括叶子节点和非叶子节点。叶子节点是对应的是词汇表中的单词，而非叶子节点是在构造huffman树过程中
      生成的路径节点。syn1表示的就是huffman树中的非叶子节点向量，其维度和词向量维度是一样的，共有(n-1)个非叶子节点，
      n表示词汇表中单词量。注意，syn1也是一个一维real(float)数组，容量为 vocab_size * layer1_size
    
syn1neg: 这是单词的另一个向量表示，之前看斯坦福自然语言处理视频中有提到过每个单词会训练出两个向量，现在看来的确是这    
         样，不过是通过negative方式训练才有。这个向量是用于负采样模式优化时需要的变量。也是一个一维的float数组，
         大小是 vocab_size * layer1_size。123456789

初始化代码如下:

//初始化网络
void InitNet() {
  long long a, b;
  unsigned long long next_random = 1;
  //为syn0分配内存，对齐的内存，大小为vocab_size * layer1_size * sizeof(real),也就是每个词汇对应一个layer1_size的向量
  a = posix_memalign((void **)&syn0, 128, (long long)vocab_size * layer1_size * sizeof(real));
  if (syn0 == NULL) {printf("Memory allocation failed\n"); exit(1);}

  //如果采用huffman softmax构造，那么需要初始化syn1，大小为vocab_size * layer1_size * sizeof(real)，每个词对应一个
  if (hs) {
    a = posix_memalign((void **)&syn1, 128, (long long)vocab_size * layer1_size * sizeof(real));
    if (syn1 == NULL) {printf("Memory allocation failed\n"); exit(1);}
    for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++)
     syn1[a * layer1_size + b] = 0;
  }

  //如果采用负采样进行训练，那么久初始化syn1neg，大小为vocab_size * layer1_size * sizeof(real)，每个词对应一个
  if (negative>0) {
    a = posix_memalign((void **)&syn1neg, 128, (long long)vocab_size * layer1_size * sizeof(real));
    if (syn1neg == NULL) {printf("Memory allocation failed\n"); exit(1);}
    for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++)
     syn1neg[a * layer1_size + b] = 0;
  }

  //对syn0中每个词对应的词向量进行初始化
  for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++) {
    next_random = next_random * (unsigned long long)25214903917 + 11;            //生成一个很大的数
    syn0[a * layer1_size + b] = (((next_random & 0xFFFF) / (real)65536) - 0.5) / layer1_size;//& 0xFFFF表示截断为[0, 65536]
  }

  //构建huffman softmax需要的哈夫曼树
  CreateBinaryTree();
}

syn0的每个值的范围为:[−0.5m,0.5m][−0.5m,0.5m]，m表示向量维度；syn1初始化为0；syn1neg也初始化为0.

2.构建哈夫曼树

// Create binary Huffman tree using the word counts
// Frequent words will have short uniqe binary codes
void CreateBinaryTree() {
  long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH];
  char code[MAX_CODE_LENGTH];
  //分配的空间大小为，(vocab_size * 2 + 1) * sizeof(long long),因为hufuman树的特性，所以总结点数是2 * n + 1, 其中n是节点数, 此处应该有错误，是2 * n - 1才对
  long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));       //节点对应频率
  long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));      //记录每个节点是左节点还是右节点
  long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //父节点位置
  for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn;
  //后面的设为无穷
  for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15;
  pos1 = vocab_size - 1;
  pos2 = vocab_size;
  // Following algorithm constructs the Huffman tree by adding one node at a time
  //如同天才般的代码，一次遍历就构造好了huffuman树, ##注意,这个a还代表了一种顺序，所有count值由小到大的顺序##
  for (a = 0; a < vocab_size - 1; a++) {
    // First, find two smallest nodes 'min1, min2',注意vocab中的词是已经按照cn排好序的了,是按照降序排列的
    //pos1表示取最原始的词对应的词频,而pos2表示取合并最小值形成的词频
    //连续两次取，两次取的时候代码操作时一模一样的
    if (pos1 >= 0) {
      if (count[pos1] < count[pos2]) {
        min1i = pos1;
        pos1--;
      } else {
        min1i = pos2;
        pos2++;
      }
    } else {
      min1i = pos2;
      pos2++;
    }
    if (pos1 >= 0) {
      if (count[pos1] < count[pos2]) {
        min2i = pos1;
        pos1--;
      } else {
        min2i = pos2;
        pos2++;
      }
    } else {
      min2i = pos2;
      pos2++;
    }
    count[vocab_size + a] = count[min1i] + count[min2i];
    parent_node[min1i] = vocab_size + a;                   //记录好合并形成的父节点的位置
    parent_node[min2i] = vocab_size + a;
    binary[min2i] = 1;                                     //左为0,右为1
  }
  // Now assign binary code to each vocabulary word
  // 建好了hufuman树之后，就需要分配code了，注意这个hufuman树是用一个数组来存储的，并不是我们常用的指针式链表
  for (a = 0; a < vocab_size; a++) {
    b = a;
    i = 0;
    while (1) {
      code[i] = binary[b];                                 //对于每个节点，自底向上得到code值，通过每个节点的binary来实现
      point[i] = b;                                        //point记录节点到根节点经过的节点的路径
      i++;
      b = parent_node[b];
      if (b == vocab_size * 2 - 2) break;
    }
    vocab[a].codelen = i;                                  //记录词对应的码值的长度
    vocab[a].point[0] = vocab_size - 2;                    //最大值作为根节点
    for (b = 0; b < i; b++) {
      vocab[a].code[i - b - 1] = code[b];                  //倒序过来，自顶向下
      vocab[a].point[i - b] = point[b] - vocab_size;       //注意这个索引对应的是huffman树中的非叶子节点，对应syn1中的索引， 因为非叶子节点都是在vocab_size * 2 + 1 的后(vocab_size + 1)个
    }
  }
  free(count);
  free(binary);
  free(parent_node);
}

多么简洁而亮眼的代码。「它主要利用了词汇表的有序性，是降序排列。所以刚开始 pos1 = vocab_size - 1 是原始词汇表中词频最小的那个单词。每次合并两个最小值，我们将新生成的节点放到后vocab-size + 1个位置，并且也是有序的往后填充，所以最终代表huffman数的count数组有一个特性，都是中心往两头在递增值。所以，我们每次取最小值，只需要比较两头中哪一头的当前值最小，就能取到两个最小值。」

3.初始化负采样概率表

如果是采用负采样的方法，此时还需要初始化每个词被选中的概率。在所有的词构成的词典中，每一个词出现的频率有高有低，我们希望，「对于那些高频的词，被选中成为负样本的概率要大点，同时，对于那些出现频率比较低的词，我们希望其被选中成为负样本的频率低点」。

//生成负采样的概率表
void InitUnigramTable() {
  int a, i;
  double train_words_pow = 0;
  double d1, power = 0.75;
  table = (int *)malloc(table_size * sizeof(int));
  //pow(x, y)计算x的y次方;train_words_pow表示总的词的概率，不是直接用每个词的频率，而是频率的0.75次方幂
  for (a = 0; a < vocab_size; a++) train_words_pow += pow(vocab[a].cn, power);  
  i = 0;
  d1 = pow(vocab[i].cn, power) / train_words_pow;
  //每个词在table中占的小格子数是不一样的，频率高的词，占的格子数显然多
  for (a = 0; a < table_size; a++) {
    table[a] = i;
    if (a / (double)table_size > d1) {
      i++;
      d1 += pow(vocab[i].cn, power) / train_words_pow;
    }
    if (i >= vocab_size) i = vocab_size - 1;
  }
}

五、模型训练

关于word2vec的CBOW和SKIP模型原理，强力推荐大神的博客讲解，虽然有错误细节，但是大体思想都是正确的。首先定义了几个重要的变量，变量解释如下:

last_word： 当前窗口正在训练的词的索引。
sentence_length: 当前训练的句子的长度
sentence_position: 当前中心词在句子中的位置
sen: 数组，存的是句子中每个词在词汇表中的索引
neu1: 是cbow模式下映射层对应的上下文向量表示，为上下文中所有词向量的平均值
neu1e: 因为skip模式下，映射层向量就是输入层向量的复制，所以neu1e仅仅用来记录上下文词对输入层的梯度。123456

每次读取一条句子，记录好句子中每个词在词汇表中对应的索引。如果启用了下采样，则会随机的跳过一些词，会随机的丢弃频繁的单词，同时保持顺序不变。代码如下:

if (sentence_length == 0) {
    while (1) {
      word = ReadWordIndex(fi);                                                   //得到词在词汇表中对应的索引
      if (feof(fi)) break;                                                        //
      if (word == -1) continue;
      word_count++;                                                               //句子总的次数
      if (word == 0) break;                                                       //遇到换行符，则直接跳出来，第一个词''代表换行符
      // The subsampling randomly discards frequent words while keeping the ranking same
      //下采样随机丢弃频繁的单词，同时保持排名相同，随机跳过一些词的训练
      if (sample > 0) {
        real ran = (sqrt(vocab[word].cn / (sample * train_words)) + 1) * (sample * train_words) / vocab[word].cn;
        next_random = next_random * (unsigned long long)25214903917 + 11;
        //频率越大的词，对应的ran就越小，越容易被抛弃，被跳过
        if (ran < (next_random & 0xFFFF) / (real)65536) continue;
      }
      sen[sentence_length] = word;                                                //当前句子包含的词，存的是索引
      sentence_length++;                                                          //句子实际长度，减去跳过的词
      if (sentence_length >= MAX_SENTENCE_LENGTH) break;
    }
    sentence_position = 0;
}123456789101112131415161718192021

然后就开始训练了，先初始化了neu1和neu1e的值。并且确定了窗口的起始位置，通过b = next_random % window来确定，「理论上，我们在中心词左右都是取大小为window个上下文词，但是在代码中，并不是保证左右都是window个，而是左边为(window - b)个，右边为(window + b)个，总数仍然是2 * window个。「训练的时候，有两种训练模型，分别是」CBOW模型和SKIP模型；对于每种模型，又有两种训练模式，分别为huffman softmax模式(hs)和negative模式(负采样)」，下面分别讲解。

1.CBOW模型

在CBOW模型中，总共有三层，分别是「输入层，映射层和输出层」。如下图所示:

hs模式和negative模式中，输入层到映射层的处理是一样的，仅仅是映射层到输出层的处理不一致。输入层到映射层的具体操作是：**将上下文窗口中的每个词向量求和，然后再平均，得到一个和词向量一样维度的向量，假设叫上下文向量，这个向量就是映射层的向量。**代码如下:

if (cbow) {  //train the cbow architecture
  // in -> hidden
  cw = 0;
  //随机取一个词word，然后计算该词上下文词对应的向量的各维度之和
  for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {
    c = sentence_position - window + a;
    if (c < 0) continue;
    if (c >= sentence_length) continue;
    last_word = sen[c];                                                         //获得senten中第c个词的索引
    if (last_word == -1) continue;
    //注意syn0是一维数组，不是二维的，所以通过last_word * layer1_size来定位某个词对应的向量位置, last_word表示上下文中上一个词
    for (c = 0; c < layer1_size; c++) neu1[c] += syn0[c + last_word * layer1_size];  //neu1表示映射层向量，上下文累加平均 
    cw++;
  }
  if (cw) {
  //上下文表示是所有词对应词向量的平均值
    for (c = 0; c < layer1_size; c++) neu1[c] /= cw;
    ......
  }
  ......
}

1.1 hs模式

huffman softmax中，计算上下文向量到中心词的概率，是一连串的二分类问题，因为从根节点到中心词对应的叶子节点，需要多次决定沿左节点还是右节点到叶子节点。详细介绍请参考word2vec数学原理详解。对于中心词w，从根节点到中心词节点的总概率为:

即:

其对数似然函数为:

中 j 表示的是从根节点到中心词w所经过的非叶子节点的索引值(huffman树是用一维数组存的，非叶子节点在数组中对应的索引)，表示的是该非叶子节点对应的 huffman 编码，作为左节点是 0 右节点是 1。表示映射层的上下文向量， θ 表示非叶子节点向量。在这里， θ 都是变量，此时，对二者求偏导数:

则：

再对应代码实现:

if (hs) for (d = 0; d < vocab[word].codelen; d++) {
  f = 0;
  l2 = vocab[word].point[d] * layer1_size;                                     //索引到该词在数组偏移量
  // Propagate hidden -> output, 传播过程
  for (c = 0; c < layer1_size; c++) f += neu1[c] * syn1[c + l2];               //注意syn1也是一维数组，不同词对应的位置需要偏移量l2确定
    if (f <= -MAX_EXP) continue;                                               //当f值不属于[-MAX_EXP, MAX_EXP]
    else if (f >= MAX_EXP) continue;
    else f = expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))];  //查看f属于第几份，((f + MAX_EXP) / (2 * MAX_EXP)) * EXP_TABLE_SIZE
    // 'g' is the gradient multiplied by the learning rate
    g = (1 - vocab[word].code[d] - f) * alpha;                                 //需要推导,得到这个梯度比例
    // Propagate errors output -> hidden
    for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1[c + l2];            //这个部分才是最终梯度值
    // Learn weights hidden -> output
    for (c = 0; c < layer1_size; c++) syn1[c + l2] += g * neu1[c];             //加上梯度值，更新syn1
 }

更新词向量代码如下:

// hidden -> in
//更新输入层的词向量
for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {
   c = sentence_position - window + a;
   if (c < 0) continue;
   if (c >= sentence_length) continue;
   last_word = sen[c];
   if (last_word == -1) continue;
      for (c = 0; c < layer1_size; c++) 
     syn0[c + last_word * layer1_size] += neu1e[c];
}

1.2 negative模式

负采样过程中，只有一个正样本也就是中心词，其他词都是负样本，将所有概率乘起来，使其最大。对于单个样本 u 有:

则所有样本的概率之和为:

其对数似然函数为:

即为:

其中 u 表示随机选取的词样本, θ 是该词样本对应的向量，表示映射层的上下文向量，表示判断词 u 是不是当前窗口中心词 w，1 表示是，0 表示不是。表示相对于中心词 w 进行的负采样集合。其中 θ 和是变量，对二者求导:

则

导数就能够进行梯度上升求最大值。实现代码如下:

// NEGATIVE SAMPLING
if (negative > 0) for (d = 0; d < negative + 1; d++) {
  if (d == 0) {                                                               //一个正样本
     target = word;
     label = 1;
   } else {
      next_random = next_random * (unsigned long long)25214903917 + 11;        //随机挑选一个负样本，负样本就是除中心词以外的所有词
      target = table[(next_random >> 16) % table_size];
      if (target == 0) target = next_random % (vocab_size - 1) + 1;            //如果target为0，这个等式保证不为0
      if (target == word) continue;                                            //正样本则跳过
        label = 0;
      }
      l2 = target * layer1_size;                                               //syn1neg是一维数组，某个词需要先计算偏移量
      f = 0;
      for (c = 0; c < layer1_size; c++) f += neu1[c] * syn1neg[c + l2];        //负采样实际会为每个词生成两个向量
        if (f > MAX_EXP) g = (label - 1) * alpha;
        else if (f < -MAX_EXP) g = (label - 0) * alpha;
        else g = (label - expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))]) * alpha;
        for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1neg[c + l2];
        for (c = 0; c < layer1_size; c++) syn1neg[c + l2] += g * neu1[c];
 }

「更新词向量代码如下:」

// hidden -> in
//更新输入层的词向量
for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {
   c = sentence_position - window + a;
   if (c < 0) continue;
   if (c >= sentence_length) continue;
   last_word = sen[c];
   if (last_word == -1) continue;
      for (c = 0; c < layer1_size; c++) syn0[c + last_word * layer1_size] += neu1e[c];
}

2.SKIP模型

skip 模型中，也是三层，输入层、映射层和输出层。结构如下：

skip模型和cbow模型优化类似，主要是输入层到映射层之间不同，「cbow中是上下文词向量平均求和，而skip模型中是直接复制中心词向量。skip模型中，优化过程是逐个计算中心词和上下文词之间的概率，使其最大化，所以和cbow中的优化计算基本类似」，代码如下：

else {  //train skip-gram
  //还是保证一个2 * window大小上下文，但是中心词左右并不一定刚好都是window个，根据b确定
  for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {
    c = sentence_position - window + a;                          //c表示上下文的当前遍历位置
    if (c < 0) continue;
    if (c >= sentence_length) continue;
    last_word = sen[c];                                          //用来记录上一个词
    if (last_word == -1) continue;                               //如果词不在词汇表中，则直接跳过
    l1 = last_word * layer1_size;                                //偏移量，因为syn0是一维数组，每个词对应的向量需要先偏移前面的词对应向量
    for (c = 0; c < layer1_size; c++) neu1e[c] = 0;
    // HIERARCHICAL SOFTMAX 
    //不需要像cbow一样求平均
    if (hs) for (d = 0; d < vocab[word].codelen; d++) {
      f = 0;
      l2 = vocab[word].point[d] * layer1_size;                   //
      // Propagate hidden -> output
      for (c = 0; c < layer1_size; c++) f += syn0[c + l1] * syn1[c + l2];
      if (f <= -MAX_EXP) continue;
      else if (f >= MAX_EXP) continue;
      else f = expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))];
      // 'g' is the gradient multiplied by the learning rate
      g = (1 - vocab[word].code[d] - f) * alpha;
      // Propagate errors output -> hidden
      for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1[c + l2];
      // Learn weights hidden -> output
      for (c = 0; c < layer1_size; c++) syn1[c + l2] += g * syn0[c + l1];
    }
    // NEGATIVE SAMPLING
    if (negative > 0) for (d = 0; d < negative + 1; d++) {
      if (d == 0) {                                                         //正样本
        target = word;
        label = 1;
      } else {                                                              //负样本
        next_random = next_random * (unsigned long long)25214903917 + 11;
        target = table[(next_random >> 16) % table_size];
        if (target == 0) target = next_random % (vocab_size - 1) + 1;
        if (target == word) continue;
        label = 0;
      }
      l2 = target * layer1_size;                                            //偏移量
      f = 0;
      for (c = 0; c < layer1_size; c++) f += syn0[c + l1] * syn1neg[c + l2];//
      if (f > MAX_EXP) g = (label - 1) * alpha;                             //计算梯度
      else if (f < -MAX_EXP) g = (label - 0) * alpha;
      else g = (label - expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))]) * alpha;
      for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1neg[c + l2];    //完整梯度
      for (c = 0; c < layer1_size; c++) syn1neg[c + l2] += g * syn0[c + l1];//更新
    }
    // Learn weights input -> hidden
    //更新输入层权重
    for (c = 0; c < layer1_size; c++) syn0[c + l1] += neu1e[c];
  }
}

六、结果处理

可以直接保存结果或者用k-means聚类算法分析结果，代码如下:

//训练模型
void TrainModel() {
  long a, b, c, d;
  FILE *fo;
  pthread_t *pt = (pthread_t *)malloc(num_threads * sizeof(pthread_t));
  printf("Starting training using file %s\n", train_file);
  starting_alpha = alpha;                                                                         //设置学习率
  if (read_vocab_file[0] != 0) ReadVocab(); else LearnVocabFromTrainFile();                       //获得词汇表，如果已经有直接读，否则学
  if (save_vocab_file[0] != 0) SaveVocab();
  if (output_file[0] == 0) return;                                                                //必须有输出文件参数
  InitNet();                                                                                      //初始化网络参数
  if (negative > 0) InitUnigramTable();                                                           //如果是使用负采样，那么需要负采样概率表
  start = clock();                                                                                //计时器
  for (a = 0; a < num_threads; a++) pthread_create(&pt[a], NULL, TrainModelThread, (void *)a);
  for (a = 0; a < num_threads; a++) pthread_join(pt[a], NULL);
  fo = fopen(output_file, "wb");
  if (classes == 0) {                                                                             //classes判断是否使用kmean聚类，为0表示否
    // Save the word vectors
    fprintf(fo, "%lld %lld\n", vocab_size, layer1_size);
    for (a = 0; a < vocab_size; a++) {
      fprintf(fo, "%s ", vocab[a].word);
      if (binary) for (b = 0; b < layer1_size; b++) fwrite(&syn0[a * layer1_size + b], sizeof(real), 1, fo);
      else for (b = 0; b < layer1_size; b++) fprintf(fo, "%lf ", syn0[a * layer1_size + b]);
      fprintf(fo, "\n");
    }
  } else {
    // Run K-means on the word vectors
    //类别中心数，迭代次数，
    int clcn = classes, iter = 10, closeid;
    int *centcn = (int *)malloc(classes * sizeof(int));                                          //每个中心点拥有的词数量
    int *cl = (int *)calloc(vocab_size, sizeof(int));                                            //每个词所属类别标签
    real closev, x;
    real *cent = (real *)calloc(classes * layer1_size, sizeof(real));                            //聚类中心，注意是用一维数组表示，每个中心需要通过偏移量来定位
    for (a = 0; a < vocab_size; a++) cl[a] = a % clcn;                                           //初始化每个词所属类别
    for (a = 0; a < iter; a++) {                                                                 //开始训练
      for (b = 0; b < clcn * layer1_size; b++) cent[b] = 0;                                      //初始化中心点位置
      for (b = 0; b < clcn; b++) centcn[b] = 1;                                                  //初始化每个中心点拥有的词的数量
      //求每个中心点每个维度值的总和，等于所有属于这个类别的词向量的相应维度相加
      for (c = 0; c < vocab_size; c++) {
        for (d = 0; d < layer1_size; d++) cent[layer1_size * cl[c] + d] += syn0[c * layer1_size + d];
        centcn[cl[c]]++;                                                                         //所包含词的数量+1
      }
      //对于每一个类别，需要更新中心点各维度值，就是总和平均
      for (b = 0; b < clcn; b++) {                                                               
        closev = 0;
        for (c = 0; c < layer1_size; c++) {                                                       //遍历每个维度
          cent[layer1_size * b + c] /= centcn[b];                                                 //每个词每个维度平均
          closev += cent[layer1_size * b + c] * cent[layer1_size * b + c];                        //求每个中心点的模的平方
        }
        closev = sqrt(closev);                                                                    //每个中心点模
        for (c = 0; c < layer1_size; c++) cent[layer1_size * b + c] /= closev;                    //归一化处理
      }
      //更新每个词所属的类别，看离哪个中心点最近就归为相应的类别
      for (c = 0; c < vocab_size; c++) {
        closev = -10;                                                                             //记录离最近中心点距离
        closeid = 0;                                                                              //记录最近的类别id
        for (d = 0; d < clcn; d++) {
          x = 0;
          for (b = 0; b < layer1_size; b++) x += cent[layer1_size * d + b] * syn0[c * layer1_size + b];
          if (x > closev) {
            closev = x;
            closeid = d;
          }
        }
        cl[c] = closeid;
      }
    }
    // Save the K-means classes
    for (a = 0; a < vocab_size; a++) fprintf(fo, "%s %d\n", vocab[a].word, cl[a]);
    free(centcn);
    free(cent);
    free(cl);
  }
  fclose(fo);
}

int ArgPos(char *str, int argc, char **argv) {
  int a;
  for (a = 1; a < argc; a++) if (!strcmp(str, argv[a])) {
    if (a == argc - 1) {
      printf("Argument missing for %s\n", str);
      exit(1);
    }
    return a;
  }
  return -1;
}

完整的注释代码:https://github.com/liuwei1206/word2vec/blob/master/word2vec%E6%BA%90%E7%A0%81%E8%A7%A3%E6%9E%90/word2vec.c

参考博客:

https://blog.csdn.net/itplus/article/details/37969979

https://blog.csdn.net/google19890102/article/details/51887344

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：
学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

你可能感兴趣的:(算法,深度学习,glassfish,oauth,opencl)

c语言通讯录二分查找,C语言程序设计通讯录程序.doc weixin_39674028 c语言通讯录二分查找
《C语言程序设计通讯录程序.doc》由会员分享，可在线阅读，更多相关《C语言程序设计通讯录程序.doc(28页珍藏版)》请在人人文库网上搜索。1、目录：课程设计任务书2目录：3一、目的4二、基本情况5三、时间安排5四、设计和调试过程规范化要求5五、设计内容和设计要求6六、考核方式7一通讯录的主要功能:8一、问题描述:8二、功能要求:8三、算法提示:8四、测试数据:9二、课题的主要功能模块划分：9三
ARM Cortex-M3与Cortex-M4权威指南胡妃意
ARMCortex-M3与Cortex-M4权威指南【下载地址】ARMCortex-M3与Cortex-M4权威指南ARMCortex-M3与Cortex-M4权威指南欢迎阅读《ARMCortex-M3与Cortex-M4权威指南（第3版）》，这是一本针对嵌入式系统开发者量身打造的深度学习手册项目地址:https://gitcode.com/Open-source-documentation-tu
数据不出境的SSL证书有吗？ Gworg ssl 网络协议网络
在中国没有数据不出境的SSL证书，原因是世界上所有可信的SSL证书必须经过Webtrust认证和CA/B组织，没有经过认证和参加组织的CA属于不可信SSL证书或自签名SSL证书。相比能看到这篇文章的肯定被人忽悠得不轻或者就是政策解读错了，国产SSL证书再次说一下除了CFCA就没有了，所以数据不出境的SSL证书除了CFCA，目前还没有一家机构可以做到，除非你选择的是国密算法SSL证书，但国密算法SS
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
kaggle入门级竞赛Spaceship Titanic LIghtgbm+Optuna调参机器学习司猫白机器学习实战机器学习 python 集成学习 scikit-learn
kaggle入门级竞赛SpaceshipTitanic简介数据介绍数据集描述数据字段描述train.csv-约三分之二（~8700）乘客的个人记录，用作培训数据。test.csv-剩余三分之一（~4300）乘客的个人记录，用作测试数据。您的任务是预测Transported该集合中乘客的价值。Sample_submission.csv-格式正确的提交文件。代码分类变量optuna算法简介简介欢迎来到
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
数据结构——算法基础小禾苗_ 数据结构
1、概念算法(Algorithm)用来描述对特定问题的求解步骤，它是指令的有限序列，其中每一条指令代表一个或多个操作算法的概念在计算机科学领域中几乎无处不在，在各种计算机系统的实现中，算法的设计往往处于核心的位置。计算机的问世是20世纪算法是计算机科学的重要基础，就像算盘一样，人们需要为计算机编制各种各样的“口诀”即算法，才能使其工作软件(项目)=程序+文档程序=数据结构+算法软件(项目)=数据结
Python 实现 RGB 和 HSV 相互转换算法传说里的故事 python 算法开发语言
Python实现RGB和HSV相互转换算法在图像处理领域，RGB和HSV是两种最常用的颜色空间。RGB是红绿蓝三原色的组合，HSV是色调、饱和度和亮度的组合。在不同应用场景下，需要将RGB和HSV进行相互转换。下面给出Python实现RGB和HSV相互转换的算法，并附上完整的源码。首先，我们需要导入colorsys库。这个库提供了许多颜色空间的转换函数。接下来，我们定义RGBToHSV和HSVTo
python 实现RGB和HSV相互转换算法 luthane python 算法开发语言
RGB和HSV相互转换算法介绍RGB和HSV之间的相互转换算法可以通过一系列的数学计算来实现。以下是对这两种色彩空间之间转换的基本算法的概述：RGB到HSV的转换1、归一化RGB值：首先，将RGB值从范围[0,255]归一化到[0,1]。这可以通过将每个颜色分量除以255来实现。2、计算明度V：明度V可以通过取RGB三个分量中的最大值来计算。即：[V=max⁡(R,G,B)][V=\max(R,G
模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
数据结构与算法：动态规划dp：理论基础和相关力扣题（509.斐波那契数列、70.爬楼梯、62. 不同路径、63.不同路径Ⅱ、343.整数拆分） shanshandeisu 数据结构与算法 LeetCode 动态规划 leetcode 算法 dp 力扣数据结构
1.0.理论基础动态规划主要解决的问题种类有：背包问题打家劫舍股票问题子序列问题解决步骤：dp数组及其下标的意义递推公式dp数组初始化遍历顺序打印dp数组2.0.相关力扣题509.斐波那契数列classSolution:deffib(self,n:int)->int:ifn==0:return0ifn==1:return1dp=[0]*35dp[1]=1foriinrange(2,31):dp[i
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
QAT与PTQ模型量化方法的区别 old_power 计算机视觉模型量化深度学习计算机视觉
QAT（QuantizationAwareTraining）和PTQ（PostTrainingQuantization）是两种常见的模型量化方法，用于减少深度学习模型的计算和存储开销，同时尽量保持模型的性能。1.QAT（QuantizationAwareTraining）定义：QAT是在模型训练过程中引入量化操作，使模型在训练时就能感知到量化带来的影响，从而更好地适应量化后的精度损失。流程：在训练
毕设分享深度学习街道行人流量计数系统 fawubio_A 毕业设计 python 毕设
文章目录0前言1项目运行效果2设计概要2原理介绍2.1目标检测概况什么是目标检测？发展阶段2.2行人检测行人检测简介行人检测技术难点行人检测实现效果4最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要
python算法毕业设计开题答疑 DD项目分享家毕业设计 python 毕设
文章目录0简介1如何选题2最新软件工程毕设选题3最后0简介丹成学长，搜集分享最新的软件工程业专业毕设选题，难度适中，适合作为毕业设计，大家参考。学长整理的题目标准：相对容易工作量达标题目新颖选题指导,项目分享：见文末1如何选题最近非常多的学弟学妹问学长关于选题的问题，所以今天学长来教大家如何进行毕业设计选题！毕业设计的选题尤为重要，选好题目是最终完成毕业设计的第一步。因为题目的选择跟之后的设计实现
Keras、TensorFlow、PyTorch框架对比及服务器配置揭秘小深ai硬件分享人工智能深度学习服务器
深度学习框架：开启智能大门的钥匙在数字化浪潮中，深度学习如明星照亮众多领域。从智能安防的人脸识别，到医疗图像分析、电商商品推荐、智能语音助手等，其身影无处不在，改变着生活与工作方式。在深度学习领域，Keras、TensorFlow和PyTorch是主流框架，能助开发者构建强大智能模型。但这些框架要充分发挥作用，离不开合适的服务器配置，就像魔法师需要魔法棒和魔力，下面我们就来看看这些具体的框架吧:框
华为OD机试E卷 --英文输入法--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述主管期望你来实现英文输入法单词联想功能。需求如下：•依据用户输入的单词前缀，从已输入的英文语句中联想出用户想输入的单词，按字典序输出联想到的单词序列，•如果联想不到，请输出用户输入的单词前缀。注意：英文单词联想时，区分大小写缩略形式如”don’t”，判定为两个单词，”don”和”t”
深度学习｜表示学习｜卷积神经网络｜局部链接是什么？｜06 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：局部连接（LocalConnectivity），是卷积神经网络（CNN）中的一个关键特性。什么是局部连接（LocalConnectivity）？局部连接指的是：在卷积操作中，每个神经元（或输出单元）只与输入数据的一个局部区域相关联，而不是与整个输入数据相连。换句话说：全连接网络（FullyConnectedLayer）中，每个神经元会与上一层所有的神经元相连。卷积网络（Convoluti
MySQL-分库分表飘飘渺渺渺红尘 Java Web Service mysql java 数据库
目录一、shardingsphere1、官方文档2、入门环境搭建2.1、引入依赖2.2、创建数据库2.3、sharding-jdbc分片策略配置2.4、事务2.5、mybatis-plus配置3、分片策略3.1、行表达式分片策略3.2、标准分片策略（1）精准分片算法精准分库算法精准分表算法（2）范围分片算法范围分库算法范围分表算法3.3、复合分片策略复合分片算法4、事务4.1、背景4.2、挑战4.
计算之魂1.3 例题总和最大区间问题独正己身算法 python 算法
一、题目给定一个实数序列，设计一个最有效的算法，找到一个总和最大的区间。如[1.5,-12.3,3.2,-5.5,23.2,3.2,-1.4,-12.2,34.2,5.4,-7.8,1.1,-4.9]总和区间为[4,9]，即第5个数23.2到第10个数5.4。二、解法这道题作者的目的是让我们对算法复杂度产生了解，不同的算法之间存在复杂度优劣，在写代码时最直观的想法写出来的代码效率可能不是最高的。2
高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样” ningaiiii 机器学习与深度学习机器学习人工智能
高斯混合模型（GMM）：用“高斯家族”描绘数据的“模样”1.引言高斯混合模型（GaussianMixtureModel,GMM）是一种基于概率密度的生成式模型。它的核心思想是用多个“高斯分布”（即正态分布）的加权组合来描述数据的分布。GMM就像是一个“画家”，用不同的“高斯画笔”描绘出数据的“模样”，特别适合处理复杂的分类任务。2.算法原理2.1模型结构GMM的核心组成包括：混合权重：每个高斯分量
大数据手写面试题Scala语言实现大全（持续更新）大模型大数据攻城狮大数据数据结构算法面试题面试宝典
在大数据领域，Scala语言因其强大的函数式编程特性和对并发处理的良好支持而成为了开发者们的热门选择。有些面试官，为了考验面试者的基本功，需要让手写一些面试题，以数据结构和算法类的居多。本文将为您提供一些常见的Scala手写面试题及参考答案，帮助您在面试或工作中更好地运用Scala。目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平
深度学习中交叉熵函数的导数:(极简) 洪小帅深度学习人工智能神经网络 python
文章目录前言一.交叉熵函数的导数二.Z,y为有n条数据的矩阵前言另一个博主有更详细的推导https://blog.csdn.net/chaipp0607/article/details/101946040一.交叉熵函数的导数softmax:令一条数据最后的输出为[z1,z2,z3,z4,…,z10],这里令输出层的神经元数量为10pi=ezi∑j=110ezjpi=\frac{e^{z_i}}{\
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
目标跟踪概念、多目标跟踪算法SORT和deep SORT原理 yhwang-hub 深度学习
目录目标跟踪、单目标跟踪、多目标跟踪的概念欧氏距离、马氏距离、余弦距离欧氏距离马氏距离余弦距离SORT算法原理SORT算法中的匈牙利匹配算法指派问题中的匈牙利算法预测模型（卡尔曼滤波器）数据关联（匈牙利匹配）目标丢失问题的处理SORT算法过程deepSORT算法原理状态估计轨迹处理分配问题的评价指标级联匹配深度表观描述子算法总结目标跟踪、单目标跟踪、多目标跟踪的概念目标跟踪分为静态背景下的目标跟踪
【网络协议】【http】【https】ECDHE-TLS1.2 钟离墨笺网络协议网络协议 http https
【网络协议】【http】【https】ECDHE-TLS1.2ECDHE算法1.客户端和服务器端事先确定好使用哪种椭圆曲线，和曲线上的基点G，这两个参数都是公开的，双方各自随机生成一个随机数作为私钥d，并与基点G相乘得到公钥Q(Q=dG)，此时客户端的公钥Q1，私钥d1，服务器的公钥Q2，私钥d2双方交换各自的公钥，最后客户端计算点(x1，y1)=d1Q2，服务器计算点(x2，y2)=d2Q1，由
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
Java集合List每回取出10个数据，分页操作。文杰一米八 java 算法
最近遇到一个需求，在点击加载更多的时候，每页返回10个数据。设计了一个小算法。话不多说，直接上代码。publicstaticvoidmain(String[]args){System.out.println("请输入当前页数：");Scanners1=newScanner(System.in);inta=s1.nextInt();System.out.println("请输入每页条数：");Sca
【Day23 LeetCode】贪心算法题银河梦想家 leetcode 贪心算法
一、贪心算法贪心没有套路，只有碰运气（bushi），举反例看看是否可行，（运气好）刚好贪心策略的局部最优就是全局最优。1、分发饼干455思路：按照孩子的胃口从小到大的顺序依次满足每个孩子，对于每个孩子，应该选择可以满足这个孩子的胃口且尺寸最小的饼干classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str