长相忆兮长相忆

【机器学习】word2vec学习笔记

1、word2vec算法原理

本模块主要介绍word2vec的算法原理。

这里就不再过多的介绍word2vec原理细节了，网上的博客已经写的非常全面了，这里列出我在学习过程中，阅读的比较深入的几篇博客。

参考文献：

1、word2vec 中的数学原理详解（作者：peghoty，网上有pdf版）

2、word2vec是如何得到词向量的？（知乎的一篇回答）

3、全面理解word2vec（主要看CBOW/skip-gram的两种结构）

4、Word2vec数学原理全家桶（主要看权重矩阵更新部分）

5、推荐系统的中 EMBEDDING 的应用实践（不只是word2vec，还包含了推荐系统的一些其他知识）

6、另外一个pdf文件：《Deep Learning实战之word2vec》

2、关于word2vec-tool

本模块主要介绍官方提供的word2vec工具：word2vec，计算词的连续分布表示的工具。

word2vec工具提供了CBOW模型和skip-gram模型计算词的向量表示的有效实现。这些表示能够随后应用在后期的NLP应用和进一步研究中。

官网地址：https://code.google.com/archive/p/word2vec/
GitHub地址：https://github.com/tmikolov/word2vec
GitHub原始文件列表与Make之后的文件列表：

博客中绿色加粗字体表示C编译之后的可执行文件，加粗倾斜字体表示脚本文件，加粗倾斜下划线字体表示数据文件。

（1）Quick start

Download the code: svn checkout http://word2vec.googlecode.com/svn/trunk/ （应该已经打不开了）
Run 'make' to compile word2vec tool
Run the demo scripts: ./demo-word.sh and ./demo-phrases.sh

（2）How does it work

word2vec工具使用一个文本语料库作为输入并将生成的词向量作为输出。word2vec首先从训练的文本数据中构造出一个词汇表然后学习词的向量表示。输出的词向量文件可以作为许多NLP应用和ML应用的特征。

研究学到的向量表示的简单方法是找出用户给定的词的最接近的词。distance工具能够实现这个需求(命令：./distance vectors.bin)。例如，当输入“france”时，distance能够输出与“france”最相似的词和这些词与“france”的距离：

demo-word.sh

下载并解压缩text8.gz文件
使用text8.gz作为输入数据集训练word2vec，训练输出文件是vectors.bin
./distance vectors.bin找出与输入词语最接近的一组词（输入：france）

word2vec包括两个主要的学习算法：continuous bag-of-words和continuous skip-gram。参数“-cbow”允许用户选择这两种算法中的任何一个。这两种算法都能够学到词的表示，这个表示对于语句序列的其他词来说是非常有用的。

（3）Interesting properties of the word vectors

词向量能够捕获许多语言规律。例如，向量操作vector('Paris')-vector('France')+vector('Italy') 能够生成一个与vector('Rome')非常接近的向量，向量操作vector('king')-vector('man')+vector('woman')与vector('queen')非常接近。运行demo-analogy.sh能够做一个小的实验。

demo-analogy.sh

下载并解压缩text8.gz文件
使用text8.gz作为输入数据集（在更大的数据集上train模型会有更好的效果）训练word2vec，训练输出文件是vectors.bin
./word-analogy vectors.bin找出与输入的三个词最接近的一组词并输出这三个词在词汇表中的位置（输入：paris france berlin）

为了观察词向量空间的强规律性，在高维度的大数据集上面训练模型就显得很有必要。word2vec工具能够在大的数据集（千亿级个词）上完成模型训练。

（4）From words to phrases and beyond

在某些应用中，大文本块的向量表示是很有用途的。例如，'san francisco'有一个唯一的向量表示是非常可取的。这可以通过使用word2phrase工具来预处理训练数据集进而生成词组完成，示例脚本./demo-phrases.sh实现了这一过程。与'san_francisco' 最接近表示的样例输出是：

demo-phrases.sh

下载并解压缩news.2012.en.shuffled.gz文件
文本处理
使用news.2012.en.shuffled-norm0作为输入训练word2phrase，输出是news.2012.en.shuffled-norm0-phrase0
使用news.2012.en.shuffled-norm0-phrase0作为输入训练word2phrase，输出是news.2012.en.shuffled-norm0-phrase1
文本处理
使用news.2012.en.shuffled-norm1-phrase1作为输入数据集训练word2vec，训练输出文件是vectors-phrase.bin
./distance vectors-phrase.bin找出与输入词最接近的一组词组

（5）How to measure quality of the word vectors

影响词向量效果的几个因素分别是：训练数据的数量和质量，向量的维度，训练算法。

词向量的效果对于一些应用来说是非常重要的。然而，复杂实验的不同超参数试探可能非常耗时。因此，我们设计了简单的测试集用于快速评估词向量的效果。

对于词的相关性测试集，运行./demo-word-accuracy.sh；对于词组的相关性测试集，运行./demo-phrase-accuracy.sh。注意，精度与训练数据集的大小非常相关，我们针对这两个测试集的最好实验结果是：超过70%的精度和接近100%的覆盖率。

demo-word-accuracy.sh

下载并解压缩text8.gz文件
使用text8.gz作为输入数据集训练word2vec，训练输出文件是vectors.bin
./compute-accuracy vectors.bin 30000 < questions-words.txt

demo-phrase-accuracy.sh

下载并解压缩news.2012.en.shuffled.gz文件
文本处理
使用news.2012.en.shuffled-norm0作为输入训练word2phrase，输出是news.2012.en.shuffled-norm0-phrase0
使用news.2012.en.shuffled-norm0-phrase0作为输入训练word2phrase，输出是news.2012.en.shuffled-norm0-phrase1
文本处理
使用news.2012.en.shuffled-norm1-phrase1作为输入数据集训练word2vec，训练输出文件是vectors-phrase.bin
./compute-accuracy vectors-phrase.bin < questions-phrases.txt

（6）Word clustering

词向量也能够用于从大数据集中生成词的类别。这可以通过在top词向量中执行K-means聚类实现。./demo-classes.sh证明了这一过程，其输出是词和词的相关类别IDs的词汇表文件。

demo-classes.sh

下载并解压缩text8.gz文件
使用text8.gz作为输入数据集训练word2vec，训练输出文件是classes.txt
对classes.txt的第二列按照数字顺序升序排序输出到classes.sorted.txt

（7）Performance

在多核-CPU机器 (参数'-threads N'进行配置)上并行训练能够显著提高训练速度。参数选择对于速度和精度来说都是至关重要的，对于不同的应用，主要的参数设置如下：

（8）Where to obtain the training data

训练数据越大词向量效果显著提高。为了便于研究，可以考虑使用可在线应用的数据集：

（9）Pre-trained word and phrase vectors

Nothing to say.

（10）Pre-trained entity vectors with Freebase naming

Nothing to say.

（11）Final words

Nothing to say.

（12）References

（13）Other useful links

Nothing to say.

（14）Disclaimer

Nothing to say.

3、word2vec源码解析

//  Copyright 2013 Google Inc. All Rights Reserved.
//
//  Licensed under the Apache License, Version 2.0 (the "License");
//  you may not use this file except in compliance with the License.
//  You may obtain a copy of the License at
//
//      http://www.apache.org/licenses/LICENSE-2.0
//
//  Unless required by applicable law or agreed to in writing, software
//  distributed under the License is distributed on an "AS IS" BASIS,
//  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
//  See the License for the specific language governing permissions and
//  limitations under the License.
//
//  Comment time 2019-04-30

#include 
#include 
#include 
#include 
#include 

#define MAX_STRING 100
#define EXP_TABLE_SIZE 1000
#define MAX_EXP 6
#define MAX_SENTENCE_LENGTH 1000
#define MAX_CODE_LENGTH 40

const int vocab_hash_size = 30000000;  // Maximum 30 * 0.7 = 21M words in the vocabulary

typedef float real;  // Precision of float numbers

struct vocab_word {
  long long cn;  // 词频,从训练集中计数得到或直接提供词频文件
  int *point;  // huffman树中从根节点到该词的路径,存放的是路径上每个节点的索引
  char *word, *code, codelen;  // word=该词,code=该词的huffman编码,codelen=该词的haffman编码的长度
};

char train_file[MAX_STRING], output_file[MAX_STRING];  // 训练文件和输出文件名称定义
char save_vocab_file[MAX_STRING], read_vocab_file[MAX_STRING];  // 词汇表输出文件和词汇表读入文件名称定义
struct vocab_word *vocab;  // 声明词汇表结构体
/*
 * binary=0则vectors.bin输出为二进制（默认）,binary=1则为文本形式;
 * cbow=1使用cbow框架,cbow=0使用skip-gram框架;
 * debug_mode>0,加载完毕后输出汇总信息;debug_mode>1,加载训练词汇的时候输出信息,训练过程中输出信息;
 * window:窗口大小,在cbow中表示了word vector的最大的sum范围,在skip-gram中表示了max space between words（w1,w2,p(w1 | w2)）;
 * min_count:设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃;
 * num_threads:线程数;
 * min_reduce:ReduceVocab删除词频小于这个值的词,因为哈希表总共可以装填的词汇数是有限的;如果词典的大小N>0.7*vocab_hash_size,则从词典中删除所有词频小于min_reduce的词。
 */
int binary = 0, cbow = 1, debug_mode = 2, window = 5, min_count = 5, num_threads = 12, min_reduce = 1;
int *vocab_hash;  // 词hash表,下标是词的hash值,内容是词在vocab中的位置,a[word_hash] = word index in vocab
/*
 * vocab_max_size:辅助变量,每次当词表大小超出vocab_max_size时,一次性将词表大小增加1000
 * vocab_size:词表的大小,接近vocab_max_size的时候会扩容
 * layer1_size:隐层的节点数or词向量的长度?
 */
long long vocab_max_size = 1000, vocab_size = 0, layer1_size = 100;
/*
 * train_words:训练的单词总数（词频累加）
 * word_count_actual:已经训练完的word个数
 * file_size:训练文件大小,ftell得到
 * classes:输出word clusters的类别数(聚类的数目)
 * alpha:BP算法的学习速率,过程中自动调整
 * starting_alpha:alpha初始值
 * sample:亚采样概率的参数,亚采样的目的是以一定概率拒绝高频词,使得低频词有更多出镜率,默认为0,即不进行亚采样
 * syn0:存储词表中每个词的词向量
 * syn1:huffman树中每个非叶节点的向量(权重)
 * syn1neg:负采样时每个词的辅助向量
 * expTable:预先存储sigmod函数结果,算法执行中查表,提前计算好,提高效率
 * start:算法运行的起始时间,用于计算平均每秒钟处理多少词
 */
long long train_words = 0, word_count_actual = 0, iter = 5, file_size = 0, classes = 0;
real alpha = 0.025, starting_alpha, sample = 1e-3;
real *syn0, *syn1, *syn1neg, *expTable;
clock_t start;

int hs = 0, negative = 5;  // hs:采用hs还是ns的标志位，默认采用ns
const int table_size = 1e8;  // 静态采样表的规模
int *table;  // 采样表

/*
 * 根据词频生成采样表,也就是每个单词的能量分布表,table在负采样中用到
 * 网络模型初始化:负采样初始化,生成负采样概率表
 */
void InitUnigramTable() {
  int a, i;
  double train_words_pow = 0;
  double d1, power = 0.75;
  table = (int *)malloc(table_size * sizeof(int));
  for (a = 0; a < vocab_size; a++) train_words_pow += pow(vocab[a].cn, power);
  i = 0;  // 词表的索引
  d1 = pow(vocab[i].cn, power) / train_words_pow;  // 已遍历词的能量值占总能量的比
  for (a = 0; a < table_size; a++) {  // table表的索引
      table[a] = i;  // 单词i占用table的a位置(table反映的是一个单词能量的分布,一个单词能量越大,所占用的table的位置越多)
    if (a / (double)table_size > d1) {
      i++;
      d1 += pow(vocab[i].cn, power) / train_words_pow;
    }
    if (i >= vocab_size) i = vocab_size - 1;  // 如果词表遍历完毕后能量表还没填满,将能量表table中剩下的位置用词表中最后一个词填充
  }
}

/* Reads a single word from a file, assuming space + tab + EOL to be word boundaries
 * 从文件中读取单个单词到word,以空格' ',tab'\t',EOL'\n'为词的分界符
 * 每一行的末尾输出一个
 */
void ReadWord(char *word, FILE *fin) {
  int a = 0, ch;  // a是用于向word中插入字符的索引;ch是从fin中读取的每个字符
  while (!feof(fin)) {
    ch = fgetc(fin);
    if (ch == 13) continue;
    if ((ch == ' ') || (ch == '\t') || (ch == '\n')) {
      if (a > 0) {
        if (ch == '\n') ungetc(ch, fin);
        break;
      }
      if (ch == '\n') {
        strcpy(word, (char *)"");
        return;
      } else continue;
    }
    word[a] = ch;
    a++;
    if (a >= MAX_STRING - 1) a--;   // Truncate too long words
  }
  word[a] = 0;  // 字符串末尾以/0作为结束符
}

/* Returns hash value of a word
 * 返回一个词的hash值,通过线性探测的开放定止法解决hash冲突
 */
int GetWordHash(char *word) {
  unsigned long long a, hash = 0;
  for (a = 0; a < strlen(word); a++) hash = hash * 257 + word[a];
  hash = hash % vocab_hash_size;
  return hash;
}

/* Returns position of a word in the vocabulary; if the word is not found, returns -1
 * 返回一个词在词表中的位置,若不存在则返回-1
 * 先计算词的hash值,然后在词hash表中,以该值为下标,查看对应的值
 * 如果该索引在词表中对应的词与正在查找的词不符,说明发生了hash值冲突,按照开放地址法去寻找这个词
 */
int SearchVocab(char *word) {
  unsigned int hash = GetWordHash(word);
  while (1) {
    if (vocab_hash[hash] == -1) return -1;
    if (!strcmp(word, vocab[vocab_hash[hash]].word)) return vocab_hash[hash];
    hash = (hash + 1) % vocab_hash_size;  // 继续顺序往下查找,因为前面存储的时候,遇到冲突就是顺序往下查找存储位置的
  }
  return -1;
}

/* Reads a word and returns its index in the vocabulary
 * 从文件流中读取一个词,并返回这个词在词汇表中的位置,相当于将之前的两个函数包装了起来
 */
int ReadWordIndex(FILE *fin) {
  char word[MAX_STRING];
  ReadWord(word, fin);
  if (feof(fin)) return -1;
  return SearchVocab(word);
}

/* Adds a word to the vocabulary
 * 将词添加到词汇表中,返回该词在词汇表中的位置
 */
int AddWordToVocab(char *word) {
  unsigned int hash, length = strlen(word) + 1;
  if (length > MAX_STRING) length = MAX_STRING;
  vocab[vocab_size].word = (char *)calloc(length, sizeof(char));
  strcpy(vocab[vocab_size].word, word);
  vocab[vocab_size].cn = 0;  // 词频初始化为0
  vocab_size++;  // 词汇表现有词数
  // Reallocate memory if needed
  if (vocab_size + 2 >= vocab_max_size) {
    vocab_max_size += 1000;  // 扩容1000个词位
    vocab = (struct vocab_word *)realloc(vocab, vocab_max_size * sizeof(struct vocab_word));
  }
  hash = GetWordHash(word);  // 词的hash值用之前的函数计算
  while (vocab_hash[hash] != -1) hash = (hash + 1) % vocab_hash_size;  // 如果该hash值与其他词产生冲突,则使用开放定址法为这个词寻找一个hash位
  vocab_hash[hash] = vocab_size - 1;  // 记录在词汇表中的存储位置
  return vocab_size - 1;  // 返回该词在词汇表中的位置
}

/* Used later for sorting by word counts
 * 按照词频从大到小排序,比较函数,词汇表需使用词频进行排序(qsort)，从大到小进行排序
 */
int VocabCompare(const void *a, const void *b) {
    return ((struct vocab_word *)b)->cn - ((struct vocab_word *)a)->cn;
}

/* Sorts the vocabulary by frequency using word counts
 * 根据词频排序,按照词频对词表中的项从大到小排序,把出现数量少的word排在vocab数组的后面
 */
void SortVocab() {
  int a, size;
  unsigned int hash;
  // Sort the vocabulary and keep  at the first position(保留回车在首位)
  qsort(&vocab[1], vocab_size - 1, sizeof(struct vocab_word), VocabCompare);  // 对词汇表进行快速排序
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;  // 词汇重排了后哈希记录的index打乱了,这里进行hash表重置
  size = vocab_size;
  train_words = 0;  // 用于训练的词汇总数(词频累加)
  for (a = 0; a < size; a++) {
    // Words occuring less than min_count times will be discarded from the vocab
    // 将出现次数小于min_count的词从词表中去除,出现次数大于min_count的重新计算hash值,更新hash词表
    if ((vocab[a].cn < min_count) && (a != 0)) {
      vocab_size--;
      free(vocab[a].word);
    } else {
      // Hash will be re-computed, as after the sorting it is not actual
      hash=GetWordHash(vocab[a].word);
      while (vocab_hash[hash] != -1) hash = (hash + 1) % vocab_hash_size;
      vocab_hash[hash] = a;
      train_words += vocab[a].cn;  // 词频累加
    }
  }
  vocab = (struct vocab_word *)realloc(vocab, (vocab_size + 1) * sizeof(struct vocab_word));  // 由于删除了词频较低的词,这里重新指定词表的内存空间
  // Allocate memory for the binary tree construction(为huffman树的构建预先申请空间)
  for (a = 0; a < vocab_size; a++) {
    vocab[a].code = (char *)calloc(MAX_CODE_LENGTH, sizeof(char));
    vocab[a].point = (int *)calloc(MAX_CODE_LENGTH, sizeof(int));
  }
}

/* Reduces the vocabulary by removing infrequent tokens
 * 从词表中删除出现次数小于min_reduce的词,每执行一次该函数min_reduce自动加1
 */
void ReduceVocab() {
  int a, b = 0;
  unsigned int hash;
  for (a = 0; a < vocab_size; a++) if (vocab[a].cn > min_reduce) {
    vocab[b].cn = vocab[a].cn;
    vocab[b].word = vocab[a].word;
    b++;
  } else free(vocab[a].word);  // 清理指针所指向的内存区域
  vocab_size = b;  // 最后剩下b个词,词频均大于min_reduce
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;  // 重置hash表
  for (a = 0; a < vocab_size; a++) {
    // Hash will be re-computed, as it is not actual(在删除了低频词后,需要重新对词库中的词进行hash值的计算)
    hash = GetWordHash(vocab[a].word);
    while (vocab_hash[hash] != -1) hash = (hash + 1) % vocab_hash_size;
    vocab_hash[hash] = a;
  }
  fflush(stdout);
  min_reduce++;
}

// Create binary Huffman tree using the word counts
// Frequent words will have short uniqe binary codes
/*
 * 利用统计到的词频构建二叉huffman树
 * 出现频率越高的词将获得短的、唯一的huffman编码
 */
void CreateBinaryTree() {
  long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH];  // point[]用来暂存从根节点到一个词的huffman树路径
  char code[MAX_CODE_LENGTH];  // code[]用来暂存一个词的huffman编码
  // 内存分配,huffman树中,若有n个叶子节点,则一共会有2n-1个节点
  long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  // count[]存储词频
  long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  // binary[]记录各节点对应的二进制编码
  long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long));  // parent_node[]记录每个节点的父节点
  for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn;  // count[]前vocab_size个元素为haffman树的叶子节点,初始化为词表中所有词的词频
  for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15;  // count[]后vocab_size个元素为huffman树中即将生成的非叶子节点（合并节点）的词频,初始化为一个大值1e15
  pos1 = vocab_size - 1;
  pos2 = vocab_size;
  // Following algorithm constructs the Huffman tree by adding one node at a time
  // pos1,pos2为别为词表中词频次低和最低的两个词的下标(初始时就是词表最末尾两个)
  for (a = 0; a < vocab_size - 1; a++) {
    // First, find two smallest nodes 'min1, min2'
    if (pos1 >= 0) {
      if (count[pos1] < count[pos2]) {
        min1i = pos1;
        pos1--;
      } else {
        min1i = pos2;
        pos2++;
      }
    } else {
      min1i = pos2;
      pos2++;
    }
    if (pos1 >= 0) {
      if (count[pos1] < count[pos2]) {
        min2i = pos1;
        pos1--;
      } else {
        min2i = pos2;
        pos2++;
      }
    } else {
      min2i = pos2;
      pos2++;
    }
    count[vocab_size + a] = count[min1i] + count[min2i];
    parent_node[min1i] = vocab_size + a;
    parent_node[min2i] = vocab_size + a;
    binary[min2i] = 1;
  }
  // Now assign binary code to each vocabulary word
  for (a = 0; a < vocab_size; a++) {
    b = a;
    i = 0;
    while (1) {
      code[i] = binary[b];
      point[i] = b;
      i++;
      b = parent_node[b];
      if (b == vocab_size * 2 - 2) break;
    }
    vocab[a].codelen = i;
    vocab[a].point[0] = vocab_size - 2;
    for (b = 0; b < i; b++) {
      vocab[a].code[i - b - 1] = code[b];
      vocab[a].point[i - b] = point[b] - vocab_size;
    }
  }
  free(count);
  free(binary);
  free(parent_node);
}

/*
 * 从训练文件中获取所有词汇并构建词表和hash比
 */
void LearnVocabFromTrainFile() {
  char word[MAX_STRING];
  FILE *fin;
  long long a, i;
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;  // 初始化hash词表
  fin = fopen(train_file, "rb");  // 打开训练文件
  if (fin == NULL) {
    printf("ERROR: training data file not found!\n");
    exit(1);
  }
  vocab_size = 0;  // 初始化词表大小
  AddWordToVocab((char *)"");  // 最初将添加到vocab的第一个位置,后续再读取word的时候,把"\N换成了"
  while (1) {
    ReadWord(word, fin);  // 从文件中读入一个词
    if (feof(fin)) break;
    train_words++;  // 总词数加1,并输出当前训练信息
    if ((debug_mode > 1) && (train_words % 100000 == 0)) {
      printf("%lldK%c", train_words / 1000, 13);
      fflush(stdout);
    }
    i = SearchVocab(word);  // 查找词在词库中位置
    // 如果词表中不存在这个词,则将该词添加到词表中,创建其在hash表中的值,初始化词频为1;反之,词频加1
    if (i == -1) {
      a = AddWordToVocab(word);
      vocab[a].cn = 1;
    } else vocab[i].cn++;
    // 如果词表大小超过一定规模,则做一次词表删减操作,删除词典中出现次数小于min_reduce的词
    if (vocab_size > vocab_hash_size * 0.7) ReduceVocab();
  }
  SortVocab();  // 按词频对词表进行排序
  if (debug_mode > 0) {
    printf("Vocab size: %lld\n", vocab_size);
    printf("Words in train file: %lld\n", train_words);
  }
  file_size = ftell(fin);  // 获取训练文件的大小
  fclose(fin);  // 关闭文件句柄
}

/*
 * 输出单词和词频到文件
 */
void SaveVocab() {
  long long i;
  FILE *fo = fopen(save_vocab_file, "wb");
  for (i = 0; i < vocab_size; i++) fprintf(fo, "%s %lld\n", vocab[i].word, vocab[i].cn);
  fclose(fo);
}

/*
 * 从词汇表文件中读词并构建词表和hash表
 * 由于词汇表中的词语不存在重复,因此与LearnVocabFromTrainFile相比没有做重复词汇的检测
 */
void ReadVocab() {
  long long a, i = 0;
  char c;
  char word[MAX_STRING];
  FILE *fin = fopen(read_vocab_file, "rb");  // 打开词汇表文件
  if (fin == NULL) {
    printf("Vocabulary file not found\n");
    exit(1);
  }
  for (a = 0; a < vocab_hash_size; a++) vocab_hash[a] = -1;  // 初始化hash词表
  vocab_size = 0;
  while (1) {
    ReadWord(word, fin);  // 从文件中读入一个词
    if (feof(fin)) break;
    a = AddWordToVocab(word);  // 将该词添加到词表中,创建其在hash表中的值,并通过输入的词汇表文件中的值来更新这个词的词频
    fscanf(fin, "%lld%c", &vocab[a].cn, &c);
    i++;
  }
  SortVocab();  // 对词表进行排序,剔除词频低于阈值min_count的值,输出当前词表大小和总词数
  if (debug_mode > 0) {
    printf("Vocab size: %lld\n", vocab_size);
    printf("Words in train file: %lld\n", train_words);
  }
  fin = fopen(train_file, "rb");  // 打开训练文件,将文件指针移至文件末尾,获取训练文件的大小
  if (fin == NULL) {
    printf("ERROR: training data file not found!\n");
    exit(1);
  }
  fseek(fin, 0, SEEK_END);
  file_size = ftell(fin);
  fclose(fin);  // 关闭文件句柄
}

/*
 * 初始化神经网络结构
 * syn0:存储词表中每个词的词向量
 * syn1:huffman树中每个非叶节点的向量
 * layer1_size:词向量的长度
 */
void InitNet() {
  long long a, b;
  unsigned long long next_random = 1;
  // 调用posiz_memalign来获取一块数量为vocab_size * layer1_size,128byte页对齐的内存
  a = posix_memalign((void **)&syn0, 128, (long long)vocab_size * layer1_size * sizeof(real));  // 为syn0分配内存空间
  if (syn0 == NULL) {printf("Memory allocation failed\n"); exit(1);}
  if (hs) {
    a = posix_memalign((void **)&syn1, 128, (long long)vocab_size * layer1_size * sizeof(real));  // 为syn1分配内存空间
    if (syn1 == NULL) {printf("Memory allocation failed\n"); exit(1);}
    for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++)
     syn1[a * layer1_size + b] = 0;  // 初始化syn1为0
  }
  // 如果要使用负采样,则需要为syn1neg分配内存空间,syn1neg是负采样时每个词的辅助向量
  if (negative>0) {
    a = posix_memalign((void **)&syn1neg, 128, (long long)vocab_size * layer1_size * sizeof(real));
    if (syn1neg == NULL) {printf("Memory allocation failed\n"); exit(1);}
    for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++)
     syn1neg[a * layer1_size + b] = 0;  // 初始化syn1neg为0
  }
  for (a = 0; a < vocab_size; a++) for (b = 0; b < layer1_size; b++) {
    next_random = next_random * (unsigned long long)25214903917 + 11;
    syn0[a * layer1_size + b] = (((next_random & 0xFFFF) / (real)65536) - 0.5) / layer1_size;  // 初始化词向量syn0,每一维的值为[-0.5, 0.5]/layer1_size范围内的随机数
  }
  CreateBinaryTree();  // 创建huffman树
}

/*
 * 核心代码,多线程模型训练
 * 默认在执行该线程函数前,已经完成词表排序、huffman树的生成以及每个词的huffman编码计算
 */
void *TrainModelThread(void *id) {
  // cw:窗口长度(中心词除外)
  // word:在提取句子时用来表示当前词在词表中的索引
  // last_word:用于在窗口扫描辅助,记录当前扫描到的上下文单词
  // setence_length:当前处理的句子长度
  // setence_position:当前处理的单词在当前句子中的位置
  long long a, b, d, cw, word, last_word, sentence_length = 0, sentence_position = 0;
  // word_count:当前线程当前时刻已训练的语料的长度
  // last_word_count:当前线程上一次记录时已训练的语料长度
  // sen:当前从文件中读取的待处理句子,存放的是每个词在词表中的索引
  long long word_count = 0, last_word_count = 0, sen[MAX_SENTENCE_LENGTH + 1];
  // l1:在skip-gram模型中,在syn0中定位当前词词向量的起始位置
  // l2:在syn1或syn1neg中定位中间节点向量或负采样向量的起始位置
  //target:在负采样中存储当前样本
  //label:在负采样中存储当前样本的标记
  long long l1, l2, c, target, label, local_iter = iter;
  unsigned long long next_random = (long long)id;  // next_random:用来辅助生成随机数
  real f, g;
  clock_t now;
  real *neu1 = (real *)calloc(layer1_size, sizeof(real));  // 输入词向量,在CBOW模型中是Context(x)中各个词的向量和,在skip-gram模型中是中心词的词向量
  real *neu1e = (real *)calloc(layer1_size, sizeof(real));  // 累计误差项
  FILE *fi = fopen(train_file, "rb");
  fseek(fi, file_size / (long long)num_threads * (long long)id, SEEK_SET);  // file_size就是之前LearnVocabFromTrainFile和ReadVocab函数中获取的训练文件的大小
  while (1) {
    if (word_count - last_word_count > 10000) {  // 每训练约10000词输出一次训练进度
      word_count_actual += word_count - last_word_count;  // word_count_actual是所有线程总共当前处理的词数
      last_word_count = word_count;
      if ((debug_mode > 1)) {
        now=clock();
        printf("%cAlpha: %f  Progress: %.2f%%  Words/thread/sec: %.2fk  ", 13, alpha,
         word_count_actual / (real)(iter * train_words + 1) * 100,
         word_count_actual / ((real)(now - start + 1) / (real)CLOCKS_PER_SEC * 1000));  // 当前的学习率cAlpha,训练总进度(当前训练的总词数/(迭代次数*训练样本总词数)+1)Progress,每个线程每秒处理的词数Words/thread/sec
        fflush(stdout);
      }
      alpha = starting_alpha * (1 - word_count_actual / (real)(iter * train_words + 1));  // 在初始学习率的基础上,随着实际训练词数的上升,逐步降低当前学习率(自适应调整学习率)
      if (alpha < starting_alpha * 0.0001) alpha = starting_alpha * 0.0001;  // 调整的过程中保证学习率不低于starting_alpha * 0.0001
    }
    // 如果当前句子长度为0,从训练样本中取出一个句子,句子间以回车分割
    if (sentence_length == 0) {
      while (1) {
        word = ReadWordIndex(fi);  // 从文件中读入一个词,将该词在词表中的索引赋给word
        if (feof(fi)) break;  // 读到文件末尾
        if (word == -1) continue;  // 没有这个单词
        word_count++;  // 单词计数增加
        if (word == 0) break;  // word为0是个回车,表示句子结束
        // The subsampling randomly discards frequent words while keeping the ranking same
        // 对高频词进行随机下采样,丢弃掉一些高频词,能够使低频词向量更加准确,同时加快训练速度
        if (sample > 0) {
          real ran = (sqrt(vocab[word].cn / (sample * train_words)) + 1) * (sample * train_words) / vocab[word].cn;
          next_random = next_random * (unsigned long long)25214903917 + 11;
          if (ran < (next_random & 0xFFFF) / (real)65536) continue;  // 以1-ran的概率舍弃高频词
        }
        sen[sentence_length] = word;  // sen存放的为该词在词典中的索引,并且sen[]中词的顺序与文本中词的顺序一致
        sentence_length++;
        if (sentence_length >= MAX_SENTENCE_LENGTH) break;  // 1000个词视作一个句子,如果句子长度超出最大长度则截断
      }
      sentence_position = 0;  // 定位到句子头
    }
    // 如果当前线程处理的词数超过了它应该处理的最大值,那么开始新一轮迭代
    // 如果迭代数超过上限,则停止迭代
    if (feof(fi) || (word_count > train_words / num_threads)) {
      word_count_actual += word_count - last_word_count;
      local_iter--;
      if (local_iter == 0) break;
      word_count = 0;
      last_word_count = 0;
      sentence_length = 0;
      fseek(fi, file_size / (long long)num_threads * (long long)id, SEEK_SET);
      continue;
    }
    word = sen[sentence_position];  // 取出当前单词
    if (word == -1) continue;  // 没有这个单词继续下一个
    for (c = 0; c < layer1_size; c++) neu1[c] = 0;  // 初始化输入词向量
    for (c = 0; c < layer1_size; c++) neu1e[c] = 0;  // 初始化累计误差项
    next_random = next_random * (unsigned long long)25214903917 + 11;  // 生成一个[0,window-1]的随机数,用来确定|context(w)|窗口的实际宽度
    b = next_random % window;
    // *** CBOW模型,根据上下文预测当前词 ***
    if (cbow) {  //train the cbow architecture
      // in -> hidden
      cw = 0;
        // 一个词的窗口为[setence_position - window + b, sentence_position + window - b],因此窗口总长度为 2*window - 2*b + 1
        for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {  // 去除窗口的中心词,这是我们要预测的内容,仅仅提取上下文
        c = sentence_position - window + a;  // sentence_position表示的是当前的位置,c表示上下文词的具体位置
        if (c < 0) continue;  // 越界检查
        if (c >= sentence_length) continue;
        last_word = sen[c];  // sen数组中存放的是句子中的每个词在词表中的索引
        if (last_word == -1) continue;
        for (c = 0; c < layer1_size; c++) neu1[c] += syn0[c + last_word * layer1_size];  // 计算窗口中词向量的和
        cw++;  // 统计实际窗口中的有效词数
      }
      if (cw) {
        for (c = 0; c < layer1_size; c++) neu1[c] /= cw;  // 求平均向量和
        // *** Hierarchical SOFTMAX 分层softmax优化 ***
        // 如果采用分层softmax优化,根据huffman树上从根节点到当前词的叶节点的路径,遍历所有经过的中间节点
        if (hs) for (d = 0; d < vocab[word].codelen; d++) {
          f = 0;
          l2 = vocab[word].point[d] * layer1_size;  // l2为当前遍历到的中间节点的向量在syn1中的起始位置
          // Propagate hidden -> output
          for (c = 0; c < layer1_size; c++) f += neu1[c] * syn1[c + l2];  // f为输入向量neu1与中间结点向量的内积
          if (f <= -MAX_EXP) continue;  // 检测f有没有超出Sigmoid函数表的范围
          else if (f >= MAX_EXP) continue;
          else f = expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))];  // 如果f没有超出范围则对f进行Sigmoid变换
          // 'g' is the gradient multiplied by the learning rate
          // g是梯度和学习率的乘积
          g = (1 - vocab[word].code[d] - f) * alpha;
          // Propagate errors output -> hidden
          for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1[c + l2];  // 根据计算得到的修正量g和输入向量更新中间节点的向量值
          // Learn weights hidden -> output
          for (c = 0; c < layer1_size; c++) syn1[c + l2] += g * neu1[c];
        }
        // *** NEGATIVE SAMPLING 负采样优化 ***
        // NEGATIVE SAMPLING
        if (negative > 0) for (d = 0; d < negative + 1; d++) {
          if (d == 0) {  // 第一次循环处理的是目标单词，即正样本
            target = word;
            label = 1;
          } else {  // 从能量表中随机抽取负样本
            next_random = next_random * (unsigned long long)25214903917 + 11;
            target = table[(next_random >> 16) % table_size];
            if (target == 0) target = next_random % (vocab_size - 1) + 1;
            if (target == word) continue;
            label = 0;
          }
          l2 = target * layer1_size;  // 在负采样优化中,每个词在syn1neg数组中对应一个辅助向量,此时的l2为syn1neg中目标单词向量的起始位置
          f = 0;
          for (c = 0; c < layer1_size; c++) f += neu1[c] * syn1neg[c + l2];  // f为输入向量neu1与辅助向量的内积
          if (f > MAX_EXP) g = (label - 1) * alpha;
          else if (f < -MAX_EXP) g = (label - 0) * alpha;
          else g = (label - expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))]) * alpha;
          for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1neg[c + l2];  // 用辅助向量和g更新累计误差
          for (c = 0; c < layer1_size; c++) syn1neg[c + l2] += g * neu1[c];  // 用输入向量和g更新辅助向量
        }
        // hidden -> in
        // 根据获得的的累计误差,更新context(w)中每个词的词向量word vectors
        for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {
          c = sentence_position - window + a;
          if (c < 0) continue;
          if (c >= sentence_length) continue;
          last_word = sen[c];
          if (last_word == -1) continue;
          for (c = 0; c < layer1_size; c++) syn0[c + last_word * layer1_size] += neu1e[c];
        }
      }
    }
    // *** skip-gram模型,根据当前词预测上下文 ***
    else {  //train skip-gram
      // 因为需要预测Context(w)中的每个词,因此需要循环2window - 2b + 1次遍历整个窗口,遍历时跳过中心单词
      for (a = b; a < window * 2 + 1 - b; a++) if (a != window) {
        c = sentence_position - window + a;
        if (c < 0) continue;
        if (c >= sentence_length) continue;
        last_word = sen[c];  // last_word为当前待预测的上下文单词
        if (last_word == -1) continue;
        l1 = last_word * layer1_size;  // l1为当前单词的词向量在syn0中的起始位置
        for (c = 0; c < layer1_size; c++) neu1e[c] = 0;  // 初始化累计误差
        // HIERARCHICAL SOFTMAX
        if (hs) for (d = 0; d < vocab[word].codelen; d++) {  // 根据huffman树上从根节点到当前词的叶节点的路径,遍历所有经过的中间节点
          f = 0;
          l2 = vocab[word].point[d] * layer1_size;
          // Propagate hidden -> output
          for (c = 0; c < layer1_size; c++) f += syn0[c + l1] * syn1[c + l2];
          if (f <= -MAX_EXP) continue;
          else if (f >= MAX_EXP) continue;
          else f = expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))];
          // 'g' is the gradient multiplied by the learning rate
          g = (1 - vocab[word].code[d] - f) * alpha;
          // Propagate errors output -> hidden
          for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1[c + l2];
          // Learn weights hidden -> output
          for (c = 0; c < layer1_size; c++) syn1[c + l2] += g * syn0[c + l1];
        }
        // NEGATIVE SAMPLING
        if (negative > 0) for (d = 0; d < negative + 1; d++) {
          if (d == 0) {
            target = word;
            label = 1;
          } else {
            next_random = next_random * (unsigned long long)25214903917 + 11;
            target = table[(next_random >> 16) % table_size];
            if (target == 0) target = next_random % (vocab_size - 1) + 1;
            if (target == word) continue;
            label = 0;
          }
          l2 = target * layer1_size;
          f = 0;
          for (c = 0; c < layer1_size; c++) f += syn0[c + l1] * syn1neg[c + l2];
          if (f > MAX_EXP) g = (label - 1) * alpha;
          else if (f < -MAX_EXP) g = (label - 0) * alpha;
          else g = (label - expTable[(int)((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2))]) * alpha;
          for (c = 0; c < layer1_size; c++) neu1e[c] += g * syn1neg[c + l2];
          for (c = 0; c < layer1_size; c++) syn1neg[c + l2] += g * syn0[c + l1];
        }
        // Learn weights input -> hidden
        for (c = 0; c < layer1_size; c++) syn0[c + l1] += neu1e[c];
      }
    }
    sentence_position++;  // 完成了一个词的训练,句子中位置往后移一个词
    // 处理完一句句子后,将句子长度置为零,进入循环,重新读取句子并进行逐词计算
    if (sentence_position >= sentence_length) {
      sentence_length = 0;
      continue;
    }
  }
  fclose(fi);
  free(neu1);
  free(neu1e);
  pthread_exit(NULL);
}

/*
 * 完整的模型训练流程
 */
void TrainModel() {
  long a, b, c, d;
  FILE *fo;
  pthread_t *pt = (pthread_t *)malloc(num_threads * sizeof(pthread_t));  // 创建多线程,线程数为num_threads
  printf("Starting training using file %s\n", train_file);
  starting_alpha = alpha;  // 初始化学习率
  // 如果有词汇表文件,则从中加载生成词表和hash表,否则从训练文件中加载
  if (read_vocab_file[0] != 0) ReadVocab(); else LearnVocabFromTrainFile();
  // 将词表中的词和词频输出到文件
  if (save_vocab_file[0] != 0) SaveVocab();
  if (output_file[0] == 0) return;
  // 训练网络结构初始化
  InitNet();
  // 如果使用负采样优化,则需要初始化能量表
  if (negative > 0) InitUnigramTable();
  start = clock();  // 开始计时
  for (a = 0; a < num_threads; a++) pthread_create(&pt[a], NULL, TrainModelThread, (void *)a);  // 创建训练线程
  for (a = 0; a < num_threads; a++) pthread_join(pt[a], NULL);
  fo = fopen(output_file, "wb");  // 训练结束进行输出
  // 如果classes参数为0,则输出所有词向量到文件中
  if (classes == 0) {
    // Save the word vectors
    fprintf(fo, "%lld %lld\n", vocab_size, layer1_size);  // 词汇量,vector维数
    for (a = 0; a < vocab_size; a++) {
      fprintf(fo, "%s ", vocab[a].word);
      if (binary) for (b = 0; b < layer1_size; b++) fwrite(&syn0[a * layer1_size + b], sizeof(real), 1, fo);
      else for (b = 0; b < layer1_size; b++) fprintf(fo, "%lf ", syn0[a * layer1_size + b]);
      fprintf(fo, "\n");
    }
  }
  // 如果classes参数不为0,则需要对词向量进行K-means聚类,输出词类,classes为最后要分成的类的个数
  else {
    // Run K-means on the word vectors
    int clcn = classes, iter = 10, closeid;  // 3个参数分别是总类数,总迭代次数,用来存储计算过程中离某个词最近的类编号
    int *centcn = (int *)malloc(classes * sizeof(int));  // centcnL:属于每个类的单词数
    int *cl = (int *)calloc(vocab_size, sizeof(int));  // cl:每个单词所属的类编号
    real closev, x;
    real *cent = (real *)calloc(classes * layer1_size, sizeof(real));  // cent:每个类的中心向量
    for (a = 0; a < vocab_size; a++) cl[a] = a % clcn;  // 先给所有单词随机指派类
    for (a = 0; a < iter; a++) {  // 循环迭代
      for (b = 0; b < clcn * layer1_size; b++) cent[b] = 0;  // 初始化类中心向量数组为0
      for (b = 0; b < clcn; b++) centcn[b] = 1;  // 初始化每个类含有的单词数为1
      // 将刚才随意分配的所属于同一个类的词向量相加,并且计算属于每个类的词数
      for (c = 0; c < vocab_size; c++) {
        for (d = 0; d < layer1_size; d++) cent[layer1_size * cl[c] + d] += syn0[c * layer1_size + d];
        centcn[cl[c]]++;
      }
      for (b = 0; b < clcn; b++) {
        closev = 0;
        for (c = 0; c < layer1_size; c++) {
          cent[layer1_size * b + c] /= centcn[b];  // 计算每个类的平均中心向量
          closev += cent[layer1_size * b + c] * cent[layer1_size * b + c];  // closev为类平均中心向量的二范数的平方
        }
        closev = sqrt(closev);  // 对closev开方,此时的closev即为类平均中心向量的二范数
        for (c = 0; c < layer1_size; c++) cent[layer1_size * b + c] /= closev;  // 用得到的范数对中心向量进行归一化
      }
      // 遍历词表中的每个词,为其重新分配距离最近的类
      for (c = 0; c < vocab_size; c++) {
        closev = -10;
        closeid = 0;
        for (d = 0; d < clcn; d++) {
          x = 0;
          // 对词向量和归一化的类中心向量做内积,内积越大说明两点之间距离越近
          for (b = 0; b < layer1_size; b++) x += cent[layer1_size * d + b] * syn0[c * layer1_size + b];
          // 取所有类中与这个词的词向量内积最大的一个类,将词分到这个类中
          if (x > closev) {
            closev = x;
            closeid = d;
          }
        }
        cl[c] = closeid;
      }
    }
    // Save the K-means classes
    for (a = 0; a < vocab_size; a++) fprintf(fo, "%s %d\n", vocab[a].word, cl[a]);  // 输出K-means聚类结果到文件中
    free(centcn);
    free(cent);
    free(cl);
  }
  fclose(fo);
}

/*
 * 当参数缺失时,输出提示信息
 */
int ArgPos(char *str, int argc, char **argv) {
  int a;
  for (a = 1; a < argc; a++) if (!strcmp(str, argv[a])) {  // 查找对应的参数
    if (a == argc - 1) {
      printf("Argument missing for %s\n", str);
      exit(1);
    }
    return a;  // 匹配成功,返回值所在的位置
  }
  return -1;
}

int main(int argc, char **argv) {
  int i;
  if (argc == 1) {  // 参数个数异常输出如下信息
    printf("WORD VECTOR estimation toolkit v 0.1c\n\n");
    printf("Options:\n");
    printf("Parameters for training:\n");
    printf("\t-train \n");  // 1.指定训练文件
    printf("\t\tUse text data from  to train the model\n");
    printf("\t-output \n");  // 2.指定输出文件,存储结果词向量或者单词类
    printf("\t\tUse  to save the resulting word vectors / word clusters\n");
    printf("\t-size \n");  // 3.词向量的维数,对应layer1_size(默认值是100)
    printf("\t\tSet size of word vectors; default is 100\n");
    printf("\t-window \n");  // 4.窗口大小,在cbow中表示了word vector的最大的叠加范围;在skip-gram中表示了max space between words（w1,w2,p(w1 | w2)）(默认值是5)
    printf("\t\tSet max skip length between words; default is 5\n");
    printf("\t-sample \n");  // 5.亚采样拒绝概率的参数
    printf("\t\tSet threshold for occurrence of words. Those that appear with higher frequency in the training data\n");
    printf("\t\twill be randomly down-sampled; default is 1e-3, useful range is (0, 1e-5)\n");
    printf("\t-hs \n");  // 6.使用hs求解,默认为0表示不使用hs(默认值是0)
    printf("\t\tUse Hierarchical Softmax; default is 0 (not used)\n");
    printf("\t-negative \n");  // 7.使用ns的时候采样的样本数(默认值为5)
    printf("\t\tNumber of negative examples; default is 5, common values are 3 - 10 (0 = not used)\n");
    printf("\t-threads \n");  // 8.指定线程数(默认值是12)
    printf("\t\tUse  threads (default 12)\n");
    printf("\t-iter \n");  // 9.训练迭代轮数(默认值是5)
    printf("\t\tRun more training iterations (default 5)\n");
    printf("\t-min-count \n");  // 10.长尾词的词频阈值(默认值是5)
    printf("\t\tThis will discard words that appear less than  times; default is 5\n");
    printf("\t-alpha \n");  // 11.初始的学习速率,默认skip-gram为0.025,CBOW为0.05
    printf("\t\tSet the starting learning rate; default is 0.025 for skip-gram and 0.05 for CBOW\n");
    printf("\t-classes \n");  // 12.输出单词类别而不输出词向量,默认为0表示输出词向量
    printf("\t\tOutput word classes rather than word vectors; default number of classes is 0 (vectors are written)\n");
    printf("\t-debug \n");  // 13.调试等级,默认为2
    printf("\t\tSet the debug mode (default = 2 = more info during training)\n");
    printf("\t-binary \n");  // 14.是否将结果输出为二进制文件,默认为0表示不输出为二进制
    printf("\t\tSave the resulting vectors in binary moded; default is 0 (off)\n");
    printf("\t-save-vocab \n");  // 15.词汇表存储文件
    printf("\t\tThe vocabulary will be saved to \n");
    printf("\t-read-vocab \n");  // 16.词汇表加载文件,则可以不指定trainfile
    printf("\t\tThe vocabulary will be read from , not constructed from the training data\n");
    printf("\t-cbow \n");  // 17.使用cbow模型,默认值为1,值为0表示使用skip-gram模型
    printf("\t\tUse the continuous bag of words model; default is 1 (use 0 for skip-gram model)\n");
    printf("\nExamples:\n");  // 参数示例
    printf("./word2vec -train data.txt -output vec.txt -size 200 -window 5 -sample 1e-4 -negative 5 -hs 0 -binary 0 -cbow 1 -iter 3\n\n");
    return 0;
  }
  output_file[0] = 0;  // 输出文件
  save_vocab_file[0] = 0;  // 输出词的文件
  read_vocab_file[0] = 0;  // 词汇表加载文件

  // 参数与变量的对应关系
  if ((i = ArgPos((char *)"-size", argc, argv)) > 0) layer1_size = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-train", argc, argv)) > 0) strcpy(train_file, argv[i + 1]);
  if ((i = ArgPos((char *)"-save-vocab", argc, argv)) > 0) strcpy(save_vocab_file, argv[i + 1]);
  if ((i = ArgPos((char *)"-read-vocab", argc, argv)) > 0) strcpy(read_vocab_file, argv[i + 1]);
  if ((i = ArgPos((char *)"-debug", argc, argv)) > 0) debug_mode = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-binary", argc, argv)) > 0) binary = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-cbow", argc, argv)) > 0) cbow = atoi(argv[i + 1]);
  if (cbow) alpha = 0.05;
  if ((i = ArgPos((char *)"-alpha", argc, argv)) > 0) alpha = atof(argv[i + 1]);
  if ((i = ArgPos((char *)"-output", argc, argv)) > 0) strcpy(output_file, argv[i + 1]);
  if ((i = ArgPos((char *)"-window", argc, argv)) > 0) window = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-sample", argc, argv)) > 0) sample = atof(argv[i + 1]);
  if ((i = ArgPos((char *)"-hs", argc, argv)) > 0) hs = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-negative", argc, argv)) > 0) negative = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-threads", argc, argv)) > 0) num_threads = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-iter", argc, argv)) > 0) iter = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-min-count", argc, argv)) > 0) min_count = atoi(argv[i + 1]);
  if ((i = ArgPos((char *)"-classes", argc, argv)) > 0) classes = atoi(argv[i + 1]);

  vocab = (struct vocab_word *)calloc(vocab_max_size, sizeof(struct vocab_word));  // 存储每一个词的结构体
  vocab_hash = (int *)calloc(vocab_hash_size, sizeof(int));  // 存储词的hash
  expTable = (real *)malloc((EXP_TABLE_SIZE + 1) * sizeof(real));  // 申请EXP_TABLE_SIZE+1个空间
  // 预处理:提前计算sigmod值,并保存起来
  for (i = 0; i < EXP_TABLE_SIZE; i++) {
    expTable[i] = exp((i / (real)EXP_TABLE_SIZE * 2 - 1) * MAX_EXP); // Precompute the exp() table
    expTable[i] = expTable[i] / (expTable[i] + 1);                   // Precompute f(x) = x / (x + 1)
  }
  TrainModel();  // 模型训练
  return 0;
}

1、word2vec 源代码完整注释

2、word2vec源码详细解析

3、GitHub版代码注释

4、word2vec源码详解（带流程）

5、word2vec源码解析

4、源码流程解析

（1）main()函数流程

输入参数与程序变量匹配
预计算sigmod，保存到expTable[]中
模型训练

（2）模型训练流程

模型结构: skip-gram (slower, better for infrequent words) vs CBOW (fast)
训练算法: hierarchical softmax (better for infrequent words) vs negative sampling (better for frequent words, better with low dimensional vectors)
高频词再采样: can improve both accuracy and speed for large data sets (useful values are in range 1e-3 to 1e-5)
词向量维度: usually more is better, but not always
上下文窗口大小: for skip-gram usually around 10, for CBOW around 5
First billion characters from wikipedia (use the pre-processing perl script from the bottom of Matt Mahoney's page)
Latest Wikipedia dump Use the same script as above to obtain clean text. Should be more than 3 billion words.
WMT11 site: text data for several languages (duplicate sentences should be removed before training the models)
Dataset from "One Billion Word Language Modeling Benchmark" Almost 1B words, already pre-processed text.
UMBC webbase corpus Around 3 billion words, more info here. Needs further processing (mainly tokenization).
Text data from more languages can be obtained at statmt.org and in the Polyglot project.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013.

你可能感兴趣的:(C++,机器学习,算法实现)

Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
【C++】仿函数的概念无水先生 BOOST C++c++
目录一、仿函数说明二、仿函数的定义三、更直观的例子四、仿函数实例五、仿函数仿函数(functor)在各编程语言中的应用5.1仿函数C5.2仿函数C++5.3仿函数C#5.4仿函数Java一、仿函数说明在我们写代码时有时会发现有些功能实现的代码，会不断的在不同的成员函数中用到，但是又不好将这些代码独立出来成为一个类的一个成员函数。但是又很想复用这些代码。写一个公共的函数，就要单立出一个函数，也不是很
c++高性能多进程 cuda编程: safe_softmax实现 + cub::BlockReduce自定义归约操作 FakeOccupational 深度学习 c++开发语言
目录cub::BlockReduce自定义归约操作(`cub::BlockReduce::Reduce`)1.语法safe_softmax实现cub::BlockReducecub::BlockReduce是CUB库（CUDAUnBound）提供的一种用于GPU线程块内数据归约(一般完成所有数据规约需要两次规约)的高效工具。它允许线程块内的多个线程并行地对数据执行归约操作，cub::BlockRe
C++多线程 -- std::thread的基本用法 qzy0621 C++多线程 c++
依赖头文件：#include用法：std::thread和join或detach一起用std::threadt1(调用函数名称，调用函数参数1，调用函数参数2，。。。，调用函数参数n)t1.join();//表示同步（阻塞），调用线程走完，才能走后面的流程t1.detach();//表示异步，主线程只触发此线程，后面和此线程无关多线程传递参数#include#includevoidshow(con
c/c++读写照片、传输文件方式 qzy0621 C++笔记 c++
c/c++读写照片、传输文件方式运行库调用API调用ifstream和ofstream实现（只要是文件即可用）测量耗时时间可用计时器:StopWach链接运行库接口内部实现是对API的调用，如：std::fopen实际调用的API：CreateFilestd::fread实际调用的API：ReadFilestd::fwrite实际调用的API：WriteFile运行库调用seekg（）对文件定位，
C++协程入门教程 ox0080 #北漂+滴滴出行 C++协程 VIP 激励 c++开发语言
一、环境搭建（Docker+双编译系统）1.全能Docker环境配置FROMubuntu:22.04#基础工具链RUNapt-getupdate&&DEBIAN_FRONTEND=noninteractiveapt-getinstall-y\build-essentialcmakebazelgitg++-12libcppcoro-dev\openssh-serverrsyslogcurlgnupg
【AI Agent教程】各种Agent开发框架都是如何实现ReAct思想的？深入源码学习一下同学小张大模型人工智能学习笔记经验分享 AIGC AI Agent ReAct
大家好，我是同学小张，持续学习C++进阶知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。驱动大模型有很多种方式，例如纯Prompt方式、思维链方式、ReAct方式等。ReAct方式是AIAgent最常用的实现思路之一，它强调在执行任务时结合推理（Reasoning）和行动（Acting）两个方面，使得Agent能够在复杂和动态的环境中更有效地工作。本文我们来看看常用的那
每日OJ_牛客_MT1最大差值_模拟+贪心_C++_Java GR鲸鱼 c++java 数据结构算法 leetcode
目录牛客_MT1最大差值_模拟+贪心题目解析C++代码Java代码牛客_MT1最大差值_模拟+贪心最大差值_牛客题霸_牛客网描述：有一个长为n的数组A，求满足0≤a≤b&A,intn){//vectorarr(n,0x3f3f3f3f);//维护一个0到i的最小值//arr[0]=A[0];//intres=0;//for(inti=1;i
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
宇树科技纯技能要求总结极梦网络无忧杂谈科技
一、嵌入式开发与硬件设计核心技能嵌入式开发：精通C/C++，熟悉STM32、ARM开发熟悉LinuxBSP开发及驱动框架（SPI/UART/USB/FLASH/Camera/GPS/LCD）掌握主流平台（英伟达、全志、瑞芯微等）硬件设计：精通数字/模拟电路设计，熟悉PCB绘制工具（Altium等）掌握MOS驱动电路、变压器设计及EMC优化熟悉制板/贴片流程及焊接扩展技能电机控制：熟悉有感FOC算法
施磊老师c++(八) Zhuai-行淮施磊老师cpp c++开发语言
语法是很不重要的,基本的回会了就行了cpp面经文章目录cpp面经1.程序的内存布局?--可以详看施磊老师第一节课2.堆栈区别3.函数调用参数是怎么传递的?4.为什么函数调用从右往左压栈5.函数题6.类和结构体的内存对齐----空结构体1.程序的内存布局?–可以详看施磊老师第一节课布局大概.text(代码段,放指令),.rodata(只读数据段,比如:常量字符串)—只读,不写.data(数据段:存放
施磊老师c++笔记(三) Zhuai-行淮施磊老师cpp c++笔记
c++模板编程-学习cpp类库的编程基础文章目录c++模板编程-学习cpp类库的编程基础1.函数模板2.理解模板函数3.实现cpp的vector向量容器4.理解容器空间配置器allocator的重要性1.函数模板内容:模板的实例化,模板函数,模板类型参数,模板非类型参数,模板的实参推演,模板的特例化,模板函数模板的特例化非模板函数的重载关系区分函数模板和模板函数的概念!!!模板的意义?对类型也可以
C++消息总线和数据总线，可实现代码间交互完全解耦 flower980323 C++c++开发语言架构设计模式
特性1.可以解耦所有源文件之间的交互编译依赖，作为中间者控制交互2.可使用不同枚举作为软件的模块消息或是数据标识，且编译无需依赖枚举头文件，可随意修改3.简单，只需少量代码即可实现，支持注册和触发4.消息总线支持优先级，控制消息触发顺序消息总线，可以实现函数调用的解耦#pragmaonce#include#include#include#includeclassMsgHandler{public:
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
施磊老师高级c++(一) Zhuai-行淮施磊老师cpp c++开发语言
对象被优化后,才是高效的c++编程文章目录对象被优化后,才是高效的c++编程1.对象使用背后调用了哪些方法2.函数调用过程中对象背后调用方法3.总结三条对象优化的规则4.CMyString的代码问题5.添加带右值引用参数的拷贝构造和赋值函数6.String类在vector上的应用--面试题7.move移动语义和forword类型完美转发move移动语义的作用代码:**问题:**解决办法:最终代码:
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
施磊老师高级c++(二) Zhuai-行淮施磊老师cpp c++开发语言
智能指针文章目录智能指针基础--实现简单的智能指针2.不带引用计数的智能指针问题解决不带引用计数的智能指针汇总auto_ptr--#include--不推荐scoped_ptr---不推荐unique_ptr--推荐--右值引用--move3.带引用计数的智能指针4.shared_ptr交叉(循环)引用问题代码示例整体过程解决办法--强弱混用弱智能指针-不能使用资源5.多线程访问共享对象的线程安全
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Centos离线安装gcc 为什么要做囚徒 linux运维 linux centos linux 运维
文章目录Centos离线安装gcc1.gcc是什么？2.gcc下载地址3.gcc的安装4.安装结果验证Centos离线安装gcc1.gcc是什么？GCC（GNUCompilerCollection）是GNU项目下的开源编译器套件，主要用于将C、C++等编程语言的源代码编译成可执行程序或库2.gcc下载地址gcc整体打包下载地址CentOS-7所有rpm包的仓库地址：bzip2-devel-1.0.
C++学习笔记：引用 etp_ c++学习笔记
引用是已知变量的别名，通过将引用变量用作参数，函数将使用原始数据而不是其副本。下面将r作为a的别名：inta;int&r=a;就像char*是指向char的指针一样，int&是指向int的引用。（a和r指向相同的值和内存单元)注意：&r表示r引用变量的地址。引用和指针的区别1.必须在声明引用时将其初始化，而不能像指针那样先声明再赋值。2.引用更接近const指针，一旦与某个变量关联起来便有一直效忠
【C++】：位图（bitset） -元清- 重制C++版 c++开发语言 c语言数据结构算法
目录位图的概念位图的应用场景位图的构造函数位图的使用位图的概念位图（Bitmap）是一种基于二进制位（bit）的高效数据结构，用于表示一组布尔值（存在或不存在、真或假）。它的核心思想是：用每一个二进制位（0或1）来标记某个状态或资源是否被占用。第i位为1→表示第i个元素存在/被占用。第i位为0→表示第i个元素不存在/未被占用。关键特性：内存高效：每个布尔值仅占用1个二进制位（bit），而非传统布尔
c++右值引用详解! 好好学习O(∩_∩)O c++开发语言
前言左值引用可以参考笔者的这篇文章---从c到c++——4：引用-CSDN博客(ps:这篇文章里的引用单只左引用笔者当时水平不高(虽然现在也不高)起错了名字)左值引用与右值引用的定义c++中,无论是左值引用与右值引用,用途都是在给对象起别名左值与右值的概念左值和右值是c++中的一个概念,严格的来说,对于系统提供的=操作符来说(自己提供的重载函数不算),可以放在等号左边的或者能加const的称为左值
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &