feilong_csdn

fastText原理和文本分类实战，看这一篇就够了

Word2vec, Fasttext, Glove, Elmo, Bert, Flair pre-train Word Embedding源码+数据Github网址: 词向量预训练实现Github

fastText原理篇

一、fastText简介

fastText是一个快速文本分类算法，与基于神经网络的分类算法相比有两大优点：
1、fastText在保持高精度的情况下加快了训练速度和测试速度
2、fastText不需要预训练好的词向量，fastText会自己训练词向量
3、fastText两个重要的优化：Hierarchical Softmax、N-gram

二、fastText模型架构

fastText模型架构和word2vec中的CBOW很相似，不同之处是fastText预测标签而CBOW预测的是中间词，即模型架构类似但是模型的任务不同。下面我们先看一下CBOW的架构：

word2vec将上下文关系转化为多分类任务，进而训练逻辑回归模型，这里的类别数量|V|词库大小。通常的文本数据中，词库少则数万，多则百万，在训练中直接训练多分类逻辑回归并不现实。word2vec中提供了两种针对大规模多分类问题的优化手段， negative sampling 和hierarchical softmax。在优化中，negative sampling 只更新少量负面类，从而减轻了计算量。hierarchical softmax 将词库表示成前缀树，从树根到叶子的路径可以表示为一系列二分类器，一次多分类计算的复杂度从|V|降低到了树的高度

fastText模型架构:其中x1,x2,…,xN−1,xN表示一个文本中的n-gram向量，每个特征是词向量的平均值。这和前文中提到的cbow相似，cbow用上下文去预测中心词，而此处用全部的n-gram去预测指定类别

三、层次softmax

softmax函数常在神经网络输出层充当激活函数，目的就是将输出层的值归一化到0-1区间，将神经元输出构造成概率分布，主要就是起到将神经元输出值进行归一化的作用，下图展示了softmax函数对于输出值z1=3,z2=1,z3=-3的归一化映射过程

在标准的softmax中，计算一个类别的softmax概率时，我们需要对所有类别概率做归一化，在这类别很大情况下非常耗时，因此提出了分层softmax(Hierarchical Softmax),思想是根据类别的频率构造霍夫曼树来代替标准softmax，通过分层softmax可以将复杂度从N降低到logN，下图给出分层softmax示例：

在层次softmax模型中，叶子结点的词没有直接输出的向量，而非叶子节点都有响应的输在在模型的训练过程中，通过Huffman编码，构造了一颗庞大的Huffman树，同时会给非叶子结点赋予向量。我们要计算的是目标词w的概率，这个概率的具体含义，是指从root结点开始随机走，走到目标词w的概率。因此在途中路过非叶子结点（包括root）时，需要分别知道往左走和往右走的概率。例如到达非叶子节点n的时候往左边走和往右边走的概率分别是：

以上图中目标词为w2为例，

到这里可以看出目标词为w的概率可以表示为：

其中θn(w,j)是非叶子结点n(w,j)的向量表示（即输出向量）；h是隐藏层的输出值，从输入词的向量中计算得来；sign(x,j)是一个特殊函数定义

此外，所有词的概率和为1，即

最终得到参数更新公式为：

四、N-gram特征

n-gram是基于语言模型的算法，基本思想是将文本内容按照子节顺序进行大小为N的窗口滑动操作，最终形成窗口为N的字节片段序列。而且需要额外注意一点是n-gram可以根据粒度不同有不同的含义，有字粒度的n-gram和词粒度的n-gram，下面分别给出了字粒度和词粒度的例子：

对于文本句子的n-gram来说，如上面所说可以是字粒度或者是词粒度，同时n-gram也可以在字符级别工作，例如对单个单词matter来说，假设采用3-gram特征，那么matter可以表示成图中五个3-gram特征，这五个特征都有各自的词向量，五个特征的词向量和即为matter这个词的向其中“<”和“>”是作为边界符号被添加，来将一个单词的ngrams与单词本身区分开来：

从上面来看，使用n-gram有如下优点
1、为罕见的单词生成更好的单词向量：根据上面的字符级别的n-gram来说，即是这个单词出现的次数很少，但是组成单词的字符和其他单词有共享的部分，因此这一点可以优化生成的单词向量
2、在词汇单词中，即使单词没有出现在训练语料库中，仍然可以从字符级n-gram中构造单词的词向量
3、n-gram可以让模型学习到局部单词顺序的部分信息, 如果不考虑n-gram则便是取每个单词，这样无法考虑到词序所包含的信息，即也可理解为上下文信息，因此通过n-gram的方式关联相邻的几个词，这样会让模型在训练的时候保持词序信息

但正如上面提到过，随着语料库的增加，内存需求也会不断增加，严重影响模型构建速度，针对这个有以下几种解决方案：
1、过滤掉出现次数少的单词
2、使用hash存储
3、由采用字粒度变化为采用词粒度

fastText实战篇

fastText实战篇来自对fastText官方文档的翻译，官网网址为：fasttext学习官网，英文阅读能力好的强烈建议直接读原文，下面翻译可以提供给不想读英文文档的读者，翻译能力有限，有错请指正！

一、Fasttext介绍

1、什么是fastText

fastText是一个高效学习单词表示和句子分类

2、fastText环境要求

fastText需要运行在Mac OS或Linux上，因为fastText使用了C++11，因此需要很好支持C++11的编译器，支持的编译器包括：
(1) gcc-4.6.3 或者更新版本
(2) clang-3.3 或者更新版本

编译是使用Makefile执行的，因此你需要有一个工作的make，对于单词相似度评估脚本则需要如下环境：
(1) python2.6 或者更新
(2) numpy 和 spicy

3、在本地快速搭建fastText

为了搭建fastText，打开命令窗口依次执行以下命令：

$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ make

上述命令将为所有类和主二进制fastText生成目标文件，如果你不打算使用默认的系统范围编译器，可以更新Makefile(CC和include)开头定义的两个宏

二、fastText教程-文本分类

文本分类对许多应用来说都是一个核心问题，例如：垃圾邮件分类、情感分析以及智能问答等。在此教程中，详细阐述通过fastText如何搭建一个文本分类模型

1、什么是文本分类

文本分类的目的是将文档(例如电子邮件、帖子、文本消息，产品评论等)分给一个或多个类别，表示这些类别可以是评价分数，垃圾邮件、非垃圾邮件，或者是文档所用的语言。目前，构建此类分类器最主要的方法是机器学习，机器学习方法从实例中学习分类规则，为了构建分类器，我们需要带标签的数据，标签数据指的数据包括文档和此文档所对应的类别(或称标记或标签)，例如，我们可以构建一个分类器，该分类器将cooking自动分为几个标签如：pot、bowl、baking等

2、安装fastText

首先我们需要做的便是安装搭建fastText，需要系统支持c++ 11的c++编译器，先从GitHub上下载fastText到本地(版本在更新，可以到GitHub上查看最近版本进行下载)：

$ wget https://github.com/facebookresearch/fastText/archive/v0.1.0.zip

然后将下载的zip文件夹进行解压，解压后进入目录对fastText项目执行make命令进行编译(因此这里便需要你的系统有支持c++11的编译器)

$ unzip v0.1.0.zip
$ cd fastText-0.1.0
$ make

在根目录下运行名为fasttext的二进制文件，便会打印出fastText支持的各种不同的命令，如：supervised进行模型训练，quantize量化模型以减少内存使用，test进行模型测试，predict预测最可能的标签等，运行结果如下所示：

>> ./fasttext
usage: fasttext <command> <args>

The commands supported by fasttext are:

  supervised              train a supervised classifier
  quantize                quantize a model to reduce the memory usage
  test                    evaluate a supervised classifier
  predict                 predict most likely labels
  predict-prob            predict most likely labels with probabilities
  skipgram                train a skipgram model
  cbow                    train a cbow model
  print-word-vectors      print word vectors given a trained model
  print-sentence-vectors  print sentence vectors given a trained model
  nn                      query for nearest neighbors
  analogies               query for analogies

上述的命令包括：
supervised： 训练一个监督分类器
quantize：量化模型以减少内存使用量
test：评估一个监督分类器
predict：预测最有可能的标签 
predict-prob：用概率预测最可能的标签
skipgram：训练一个 skipgram 模型
cbow：训练一个 cbow 模型
print-word-vectors：给定一个训练好的模型，打印出所有的单词向量
print-sentence-vectors：给定一个训练好的模型，打印出所有的句子向量
nn：查询最近邻居
analogies：查找所有同类词

在本节fastText文本分类中，我们主要使用SUPERVISED、TEST和PREDICT命令，在下一小节中我们主要介绍FASTTEXT关于学习单词向量的模型

3、获取数据及数据预处理

正如上面所说，我们需要带有标签的数据去训练我们的监督学习的分类器，本教程中，我们使用cooking相关数据构建我们的分类器，因此首先我们下载数据，数据网址为stackexchange，进行如下命令操作：

>> wget https://dl.fbaipublicfiles.com/fasttext/data/cooking.stackexchange.tar.gz
>> tar xvzf cooking.stackexchange.tar.gz
>> head cooking.stackexchange.txt

通过head命令便可看到文档形式，文档的每一行都包含一个标签，标签后面跟着相应的单词短语，所有的标签都以__label__前缀开始，这事fastText便是标签和单词短语的方式，训练的模型便是预测文档中给定单词短语预测其对应的标签

在训练分类器之前，我们需要将数据分割成训练集和验证集，我们将使用验证集来评估学习到的分类器对新数据的性能好坏，先通过下面命令来查看文档中总共含有多少数据：

>> wc cooking.stackexchange.txt 
   15404  169582 1401900 cooking.stackexchange.txt

可以看到我们数据中总共包含了15404个示例，我们把文档分成一个包含12404个示例的训练集和一个包含3000个示例的验证集，执行如下命令：

>> head -n 12404 cooking.stackexchange.txt > cooking.train
>> tail -n 3000 cooking.stackexchange.txt > cooking.valid

4、使用fastText快速搭建分类器

上面数据已经准备好了，接下来我们便开始训练我们的模型，首先执行如下命令进行模型的训练：

>> ./fasttext supervised -input cooking.train -output model_cooking
Read 0M words
Number of words:  14598
Number of labels: 734
Progress: 100.0%  words/sec/thread: 75109  lr: 0.000000  loss: 5.708354  eta: 0h0m

-input命令选项指示训练数据，-output选项指示的是保存的模型的位置，在训练结束后，文件model_cooking.bin是在当前目录中创建的，model_cooking.bin便是我们保存训练模型的文件

模型训练好之后，我们可以交互式测试我们的分类器，即单独测试某一个句子所属的类别，可以通过以下命令进行交互式测试：

>> ./fasttext predict model_cooking.bin -

输入以上命令后，命令行会提示你输入句子，然后我们可以进行如下句子测试：

Which baking dish is best to bake a banana bread ?

上面句子可以得到预测的标签是baking，显然这个预测结果是正确的，我们再进行尝试

Why not put knives in the dishwasher?

上面句子预测的标签是food-safety，可以看出是不相关的，显然预测的不正确，为了验证学习到的分类模型的好坏，我们在验证集上对它进行测试，观察模型的精准率precision和召回率recall：

>> ./fasttext test model_cooking.bin cooking.valid                 
N  3000
P@1  0.124
R@1  0.0541
Number of examples: 3000

5、精准率Precision和召回率Recall

精准率Precision指的是预测为正样本中有多少是真正的正样本，召回率Recall指的是样本中的正样本有多少被预测正确了，因此精准率看的是预测为某一类的样本中有多少是真正的属于这一类的，而召回率看的是在分类任务中某一类样本是否完全被预测正确，下面通过一个例子来更清楚的认识这个概念，以下面句子为例：

Why not put knives in the dishwasher?

上面句子的正式标签有三个，分别是：equipment, cleaning and knives

然后我们通过模型对上面句子进行预测，执行如下命令：

>> ./fasttext predict model_cooking.bin - 5

预测得到的结果分别是：food-safety, baking, equipment, substitutions, bread

可以看出五个预测的标签中只预测正确了一个标签equipment，我们来看，预测的样本中正确的样本所占的比例即是精准率，因此精准率为1/5=0.2；而真实标签中有多少预测正确了即是召回率，因此召回率为1/3=0.33，这样我们应该能明白精准率和召回率的概念了，想更加详细的了解精准率和召回率，请参考维基百科精准率和召回率

6、模型优化

上面通过使用默认参数运行fastText训练得到的模型在分类新问题上效果很差，接下来我们通过更改默认参数来提高性能

(1) 方案一：数据预处理

查看数据，我们发现有些单词包含大写字母和标点符号，因此改善模型性能的第一步就是应用一些简单的预处理，预处理可以使用命令行工具例如sed、tr来对文本进行简单的标准化操作，执行命令如下：

>> cat cooking.stackexchange.txt | sed -e "s/\([.\!?,'/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > cooking.preprocessed.txt
>> head -n 12404 cooking.preprocessed.txt > cooking.train
>> tail -n 3000 cooking.preprocessed.txt > cooking.valid

接下来我们在预处理的数据集上进行模型训练并进行测试，命令如下：

>> ./fasttext supervised -input cooking.train -output model_cooking
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 82041  lr: 0.000000  loss: 5.671649  eta: 0h0m h-14m

>> ./fasttext test model_cooking.bin cooking.valid 
N  3000
P@1  0.164
R@1  0.0717
Number of examples: 3000

观察上面的结果，由于对数据预处理，词典变小了，由原来的14K个单词变成了9K,精准率也上升了4%，因此数据预处理起到了一定的效果

(2) 方案二：更多的训练次数和更大的学习率

在默认情况下，fastText在训练期间对每个训练用例仅重复使用五次，这太小，因为我们的训练集只有12k训练样例，因此我们可以通过-epoch选项增加每个样例的使用次数，命令如下：

>> ./fasttext supervised -input cooking.train -output model_cooking -epoch 25 
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 77633  lr: 0.000000  loss: 7.147976  eta: 0h0m

然后测试模型查看效果：

>> ./fasttext test model_cooking.bin cooking.valid                                        
N  3000
P@1  0.501
R@1  0.218
Number of examples: 3000

从上面测试效果可以看出，精准率和召回率都有了大幅度提升，可见增加每个样例的使用次数对于数据集少的情况下效果提升明显。另一个增强算法能力是改变模型的学习速度即学习速率，这对应于处理每个示例后模型的更改程度，当学习率为0时意味着模型根本不会发生改变，因此不会学到任何东西，良好的学习率值在0.1-1.0的范围内，下面我们通过设置算法学习率为learning rate = 1.0进行模型训练：

>> ./fasttext supervised -input cooking.train -output model_cooking -lr 1.0  
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 81469  lr: 0.000000  loss: 6.405640  eta: 0h0m

>> ./fasttext test model_cooking.bin cooking.valid                         
N  3000
P@1  0.563
R@1  0.245
Number of examples: 3000

可以看到效果比上面增加epoch还要好，下面我们来将二者结合起来：

>> ./fasttext supervised -input cooking.train -output model_cooking -lr 1.0 -epoch 25
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 76394  lr: 0.000000  loss: 4.350277  eta: 0h0m

>> ./fasttext test model_cooking.bin cooking.valid                                   
N  3000
P@1  0.585
R@1  0.255
Number of examples: 3000

下面我们来增加一些新的方式来进一步提升模型的性能，看方案三

(3) 方案三：word n-grams

此方案中，我们使用单词bigrams而不是仅仅是unigrams来提高模型的性能，这对于词序很重要的分类问题尤其重要，例如情感分析。n-gram是基于语言模型的算法，基本思想是将文本内容按照子节顺序进行大小为N的窗口滑动操作，最终形成窗口为N的字节片段序列。训练模型命令如下：

>> ./fasttext supervised -input cooking.train -output model_cooking -lr 1.0 -epoch 25 -wordNgrams 2
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 75366  lr: 0.000000  loss: 3.226064  eta: 0h0m

>> ./fasttext test model_cooking.bin cooking.valid                                                 
N  3000
P@1  0.599
R@1  0.261
Number of examples: 3000

通过几个步骤，可以看出我们将模型精准率从12.4%提升到了59.9%，总结一下主要包含以下步骤：
(1) 数据预处理
(2) 更改样本训练次数epochs(使用参数 –epoch，标准范围[5, 50])
(3) 更改学习率learning rate(使用参数 –lr，标准范围[0.1-1])
(4) 使用word n-grams(使用参数 –wordNgrams，标准范围[1-5])

7、什么是Bigram

unigram指的是单个不可分割的单元和标记，通常用做模型的输入，并且在不同的模型中unigram可以是单词或是字母，在fastText中，我们是在单词级别上进行训练模型，因此unigram是单词。类似的，bigram值的是两个连续的单词的串联，n-grams指的便是n个单词的串联。举个例子，现在有这样一句话：Last donut of the night，如果是unigrams则是last,donut,of,the,night，而对于bigrams指的是last donut,donut of,of the,the night

8、提升训练速度

目前我们在几千个示例中训练我们的模型，训练只需要几秒钟，但如果数据集增大，标签增多，这时模型训练便会变慢，一个让训练变快的方案便是使用分层softmax，而不是使用常规softmax，使用分层softmax是使用参数 –loss hs实现，命令如下：

>> ./fasttext supervised -input cooking.train -output model_cooking -lr 1.0 -epoch 25 -wordNgrams 2 -bucket 200000 -dim 50 -loss hs
Read 0M words
Number of words:  9012
Number of labels: 734
Progress: 100.0%  words/sec/thread: 2199406  lr: 0.000000  loss: 1.718807  eta: 0h0m

此时对于我们当前的数据集，训练速度应该不超过1秒

9、总结

本教程中我们简单介绍了如何使用fastText来训练强大的分类器，同时介绍了一些重要的参数选项，通过调参来进行模型优化

三、fastText教程-单词表示词向量

现在机器学习中一个十分流行的做法便是用向量表示单词，即词向量化wordEmbedding，这些向量可以捕捉到有关语言的一些隐藏信息，例如语法信息，语义信息等，好的词向量表示可以提升分类器的性能，在本教程中，我们展示如何使用fastText工具来构建词向量，安装fastText过程请参考上一讲

1、获取数据

为了计算词向量，我们需要一个大的文本语料库，根据语料库的不同，单词向量也将捕捉到不同的信息，在本教程中，我们关注Wikipedia的文章，当然也可以考虑其他语料库来源，例如新闻活着Webcrawl，下载Wikipedia语料库执行如下命令：

wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

下载Wikipedia语料库需要挺长时间，如果不使用Wikipedia全部语料库信息，我们可以在Wikipedia前10亿字节信息进行词向量学习，此数据可以在Matt Mahoney网站上下载

$ mkdir data
$ wget -c http://mattmahoney.net/dc/enwik9.zip -P data
$ unzip data/enwik9.zip -d data

这样我们便获得了Wikipedia的部分数据，因为Wikipedia语料库中包含大量的HTML/XML数据，因此需要对数据进行预处理，我们可以使用与fastText自带的wikifil.pl脚本对其进行预处理，这个脚本最初由Matt Mahoney创建，因此可以在下面网址上找到：http://mattmahoney.net/，执行如下命令对数据进行预处理：

$ perl wikifil.pl data/enwik9 > data/fil9

我们可以执行如下命令检查我们的文件数据：

$ head -c 80 data/fil9
anarchism originated as a term of abuse first used against early working class

可以观察到我们的文本经过了很好的处理，接下来可以用文本来学习词向量

2、训练词向量

数据集已经取到了，现在我们可以使用如下的简单命令在上述数据集上训练我们的词向量

$ mkdir result
$ ./fasttext skipgram -input data/fil9 -output result/fil9

分解上述命令：./fasttext使用skipgram模型调用二进制fastText可执行文件，当然也可以使用cbow模型，-input表示输入数据路径，-output表示训练的词向量模型所在路径，当fastText运行时，屏幕会显示进度和估计的完成时间，程序完成后，结果目录应该出现如下两个文件，可通过下面命令查看：

$ ls -l result
-rw-r-r-- 1 bojanowski 1876110778 978480850 Dec 20 11:01 fil9.bin
-rw-r-r-- 1 bojanowski 1876110778 190004182 Dec 20 11:01 fil9.vec

fil9.bin文件是一个二进制文件，它存储了整个fastText模型，随后可以进行加载，fil9.vec文件是一个包含单词向量的文本文件，每一行对应词汇表中的每个单词，可通过如下命令查看fil9.vec中的信息

$ head -n 4 result/fil9.vec
218316 100
the -0.10363 -0.063669 0.032436 -0.040798 0.53749 0.00097867 0.10083 0.24829 ...
of -0.0083724 0.0059414 -0.046618 -0.072735 0.83007 0.038895 -0.13634 0.60063 ...
one 0.32731 0.044409 -0.46484 0.14716 0.7431 0.24684 -0.11301 0.51721 0.73262 ...

从上面结果可见，第一行显示的是单词向量和向量维度，接下来几行是词汇表中所有单词的单词向量，顺序是按照频率降低的顺序进行排序

3、skipgram VS cbow

fastText为计算单词表示提供了两种模型：skipgram和cbow，这和word2vec一样，cbow全称：Continuous-bag-of-words，skipgram模型运行机理是通过附近的词来预测目标单词，而cbow模型则是根据目标词的上下文来预测目标词，这里的上下文指的便是目标词周围的固定大小窗口中包含的单词包，下面通过例子便能够体会到上下文的含义。例如：给出这样一个句子：

Poets have been mysteriously silient on the subject of cheese

其目标词是slient，skipgram模型是通过目标词附近的词去预测slient，例如subjector, mysteriously, 而cbow模型则是通过目标词的上下文词来预测slient，如：{been, mysteriously, on, the},并且使用单词的向量预测目标，下面一个示例图展示了二者的差异，使用的句子是

I am selling these fine leather jackets

上面已经使用skipgram模型对数据集进行了训练，如果想用cbow模型训练之行如下命令

./fasttext cbow -input data/fil9 -output result/fil9

从实际效果中看，我们会发现skipgram模型对于单词信息的处理效果要优于cbow模型

4、模型参数调优

上面的训练都是使用的默认的参数运行fastText，但根据数据的不同，这些参数可能不是最优的，让我们介绍一下子向量的一些关键参数。

模型中最重要的两个参数是：词向量大小维度、subwords范围的大小，词向量维度越大，便能获得更多的信息但同时也需要更多的训练数据，同时如果它们过大，模型也就更难训练速度更慢，默认情况下使用的是100维的向量，但在100-300维都是常用到的调参范围。subwords是一个单词序列中包含最小(minn)到最大(maxn)之间的所有字符串(也即是n-grams)，默认情况下我们接受3-6个字符串中间的所有子单词，但不同的语言可能有不同的合适范围

$ ./fasttext skipgram -input data/fil9 -output result/fil9 -minn 2 -maxn 5 -dim 300

下面介绍另外两个参数：epoch、learning rate、epoch根据训练数据量的不同，可以进行更改，epoch参数即是控制训练时在数据集上循环的次数，默认情况下在数据集上循环5次，但当数据集非常大时，我们也可以适当减少训练的次数，另一个参数学习率，学习率越高模型收敛的速度就越快，但存在对数据集过度拟合的风险，默认值时0.05，这是一个很好的折中，当然在训练过程中，也可以对其进行调参，可调范围是[0.01, 1]，下面命令便尝试对这两个参数进行调整：

$ ./fasttext skipgram -input data/fil9 -output result/fil9 -epoch 1 -lr 0.5

最后fastText是多线程的，默认情况下使用12个线程，如果你的机器只有更少的CPU核数，也可以通过如下参数对使用的CPU核数进行调整

$ ./fasttext skipgram -input data/fil9 -output result/fil9 -thread 4

5、打印词向量

直接从fil9.vec文件中搜索和打印词向量是十分麻烦的，但幸运的是fastText提供了打印词向量的功能，我们可以通过fastText中print-word-vectors功能打印词向量，例如，我们可以使用以下命令打印单词asparagus、pidgey和yellow单词的词向量：

$ echo "asparagus pidgey yellow" | ./fasttext print-word-vectors result/fil9.bin
asparagus 0.46826 -0.20187 -0.29122 -0.17918 0.31289 -0.31679 0.17828 -0.04418 ...
pidgey -0.16065 -0.45867 0.10565 0.036952 -0.11482 0.030053 0.12115 0.39725 ...
·0.040719 -0.30155 ...

一个很好的功能是我们可以查询到未出现在数据中的单词，实际上，单词是由字符串的总和组成，只要未知的单词是由已知的字串构成，就可以得到单词的词向量，举个例子下面尝试一下查询拼写出错的单词：

$ echo "enviroment" | ./fasttext print-word-vectors result/fil9.bin

结果仍然可以查询到词向量，但是至于效果怎么样，我们可以在下一节找到答案

6、临近词向量查询

检查单词向量质量的一种简单的方法是查看此此单词的临近词，可以通过临近词比较来查看词向量对于语义的表达。最临近词向量查询可以通过fastText提供的nn功能来实现，例如我们可以通过运行一下命令来查询单词10个最近邻居：

$ ./fasttext nn result/fil9.bin
Pre-computing word vectors... done.

然后命令行便会提示我们输入需要查询的词，我们尝试一下asparagus

Query word? asparagus
beetroot 0.812384
tomato 0.806688
horseradish 0.805928
spinach 0.801483
licorice 0.791697
lingonberries 0.781507
asparagales 0.780756
lingonberry 0.778534
celery 0.774529
beets 0.773984

从上面结果可以看出效果不错，查询词之间由很大的共性，再尝试查询pidgey,结果如下

Query word? pidgey
pidgeot 0.891801
pidgeotto 0.885109
pidge 0.884739
pidgeon 0.787351
pok 0.781068
pikachu 0.758688
charizard 0.749403
squirtle 0.742582
beedrill 0.741579
charmeleon 0.733625

上面提到了如果单词拼写出错可能影响词向量的查询，那如果单词拼写错误，如果查询其临近词结果如何，下面展示一下效果：

Query word? enviroment
enviromental 0.907951
environ 0.87146
enviro 0.855381
environs 0.803349
environnement 0.772682
enviromission 0.761168
realclimate 0.716746
environment 0.702706
acclimatation 0.697196
ecotourism 0.697081

可以看出虽然单词拼写出错，但是查询结果还是捕获到了单词的主要信息，拼写出错的单词也与合理的单词匹配，虽然还是有一些影响，但整体方向是正确的。

为了找到词向量临近的单词，我们需要计算的单词之间的相似度得分。模型训练的单词是由连续的单词向量表示，因此我们可以对其进行相似度的比较，一般情况下，我们使用余弦相似度去衡量两个单词之间的相似度，我们可以计算词汇表中任意单词和所有其他单词之间的相似度，并显示10个最相似单词，当然被查询单词本身肯定排在顶部，相似度为1

7、单词类比

在相似度问题中，有时会进行单词类比，例如我们训练的模型能够知道法国是什么，并且知道柏林对于德国来说意味着什么。这个在fastText中是可以做到的，利用单词类比这个功能即可实现，例如下面我们输入三个单词，然后输出单词的类比单词：

$ ./fasttext analogies result/fil9.bin
Pre-computing word vectors... done.
Query triplet (A - B + C)? berlin germany france
paris 0.896462
bourges 0.768954
louveciennes 0.765569
toulouse 0.761916
valenciennes 0.760251
montpellier 0.752747
strasbourg 0.744487
meudon 0.74143
bordeaux 0.740635
pigneaux 0.736122

上面模型类比功能提供的最可能结果是巴黎，显然是十分准确，下面我们再来看一个不太明显的例子：

Query triplet (A - B + C)? psx sony nintendo
gamecube 0.803352
nintendogs 0.792646
playstation 0.77344
sega 0.772165
gameboy 0.767959
arcade 0.754774
playstationjapan 0.753473
gba 0.752909
dreamcast 0.74907
famicom 0.745298

从上面结果可以看出模型认为psx是索尼的游戏手柄，因此nintendo任天堂类比的是gamecube，这个类比也比较合理。当然类比的质量也取决于训练模型的数据集，类比的结果也仅仅在数据集的范围内

8、字符n-grams重要性

利用subword-level信息也即是n-grams对于构建未知单词词向量很有趣，例如Wikipedia中不存在gearshift这个单词，但是我们仍然能够查询到它的临近单词：

Query word? gearshift
gearing 0.790762
flywheels 0.779804
flywheel 0.777859
gears 0.776133
driveshafts 0.756345
driveshaft 0.755679
daisywheel 0.749998
wheelsets 0.748578
epicycles 0.744268
gearboxes 0.73986

效果还可以，因为大多数被检索到的单词共享大量的子串，当然也有些特殊的单词比较特殊，例如cogwheel，我们可以看到subword-level对于未知单词查询所起到的效果，但是如果我们在训练模型的时候没有使用subwords这个参数，结果会如何，下面我们便进行尝试，运行以下命令训练没有subwords的模型：

$ ./fasttext skipgram -input data/fil9 -output result/fil9-none -maxn 0

此时训练的模型保存在result/fil9-non.vec和result/fil9-non.bin，为了表明不加subwords模型的不同，我们再举一个wikipedia中不常见的单词如：accomodation，就类似于accommodation住宿这个单词，下面给出其相似词的查询结果：

$ ./fasttext nn result/fil9-none.bin
Query word? accomodation
sunnhordland 0.775057
accomodations 0.769206
administrational 0.753011
laponian 0.752274
ammenities 0.750805
dachas 0.75026
vuosaari 0.74172
hostelling 0.739995
greenbelts 0.733975
asserbo 0.732465

可以看出结果中的词没有任何意义，大多数词都是不想关的，我们再用使用了subwords的模型测试accomodation的相似词，结果便有明显的差别：

Query word? accomodation
accomodations 0.96342
accommodation 0.942124
accommodations 0.915427
accommodative 0.847751
accommodating 0.794353
accomodated 0.740381
amenities 0.729746
catering 0.725975
accomodate 0.703177
hospitality 0.701426

上面结果准确捕捉到相似度很高的accommodation这个单词，同时我们还捕获到语义相关的词如：便利设施amenities和寄宿lodging，因此训练模型加上subwords参数对模型效果有很大的提升

9、结论

在小节中，详细展示了如果在wikipedia上获得词向量，对于其他语言也都可以同样运行，下面网址提供了fastText在词向量上的多个预训练模型，可以参考使用预训练模型网址

四、常用命令备忘录

词向量的学习-使用fastText学习词向量执行以下命令：

$ ./fasttext skipgram -input data.txt -output model

取得词向量-将模型学习得词向量打印到文件中执行如下命令：

$ ./fasttext print-word-vectors model.bin < queries.txt

文本分类-训练一个文本分类模型执行如下命令：

$ ./fasttext supervised -input train.txt -output model

当一个模型训练结束后，我们可以通过在测试集上计算精准率Precision和召回率Recall进行模型评估，执行如下命令：

$ ./fasttext test model.bin test.txt 1

为了直接预测一段文本最可能的k个标签，执行如下命令：

$ ./fasttext predict model.bin test.txt k

为了直接预测一段文本的k个最可能的标签及其相关概率大小，可以执行如下命令：

$ ./fasttext predict-prob model.bin test.txt k

如果想要计算句子或段落的向量表示，执行如下命令：

$ ./fasttext print-sentence-vectors model.bin < text.txt

为了创建一个内存更小的模型可以执行如下命令

$ ./fasttext quantize -output model

所有其他的命令都类似下面test命令

$ ./fasttext test model.ftz test.txt

五、模型可选参数列表及默认值

$ ./fasttext supervised
Empty input or output path.

The following arguments are mandatory:
  -input              training file path
  -output             output file path

  The following arguments are optional:
  -verbose            verbosity level [2]

  The following arguments for the dictionary are optional:
  -minCount           minimal number of word occurrences [5]
  -minCountLabel      minimal number of label occurrences [0]
  -wordNgrams         max length of word ngram [1]
  -bucket             number of buckets [2000000]
  -minn               min length of char ngram [3]
  -maxn               max length of char ngram [6]
  -t                  sampling threshold [0.0001]
  -label              labels prefix [__label__]

  The following arguments for training are optional:
  -lr                 learning rate [0.05]
  -lrUpdateRate       change the rate of updates for the learning rate [100]
  -dim                size of word vectors [100]
  -ws                 size of the context window [5]
  -epoch              number of epochs [5]
  -neg                number of negatives sampled [5]
  -loss               loss function {ns, hs, softmax} [ns]
  -thread             number of threads [12]
  -pretrainedVectors  pretrained word vectors for supervised learning []
  -saveOutput         whether output params should be saved [0]

  The following arguments for quantization are optional:
  -cutoff             number of words and ngrams to retain [0]
  -retrain            finetune embeddings if a cutoff is applied [0]
  -qnorm              quantizing the norm separately [0]
  -qout               quantizing the classifier [0]
  -dsub               size of each sub-vector [2]

默认值可能因模型不同，例如单词表示模型skip gram和cbow使用默认的minCount为5

六、fastText中常见问题汇总

1、什么是fastText

fastText是一个用于文本分类和词向量表示的库，它能够把文本转化成连续的向量然后用于后续具体的语言任务，目前教程较少！

2、为什么训练的模型非常大

fastText对字和字符串使用hash表，hash表的大小将直接影响模型的大小，可以通过选项-hash来减少词汇hash表的大小，一个可选的好参数时20000。另一个影响模型大小重要的因素是训练向量的维度大小(-dim)，如果维度缩小模型将大大减小，但同时也会很大程度影响模型的性能，因为向量维度越大则捕获的信息越多，当然还有一种将模型变小的方法是使用量化选项(-quantize)，命令如下所示：

./fasttext quantize -output model

3、模型中使用单词短语而不是单个单词最佳方式是什么

目前使用单词短语或句子最好的方式是使用词向量的bow(bag of words),另一种方式例如New York，我们可以将其处理成New_York也会有帮助

4、为什么fastText甚至可以为语料库中未出现的单词产生词向量

fastText一个重要的特性便是有能力为任何单词产生词向量，即使是未出现的，组装的单词。主要是因为fastText是通过包含在单词中的子字符substring of character来构建单词的词向量，正文中也有论述，因此这种训练模型的方式使得fastText可以为拼写错误的单词或者连接组装的单词产生词向量

5、为什么分层softmax在效果上比完全softmax略差

分层softmax是完全softmax的一个近似，分层softmax可以让我们在大数据集上高效的建立模型，但通常会以损失精度的几个百分点为代价，

6、可以在GPU上运行fastText项目吗

目前fastText仅仅可运行在CPU上，但这也是其优势所在，fastText的目的便是要成为一个高效的CPU上的分类模型，可以允许模型在没有CPU的情况下构建

7、可以使用python语言或者其他语言使用fastText嘛

目前在GitHub上有很少的关于fastText的其他语言实现的非官方版本，但可以负责任的说，是可以用tensorflow实现的

8、可以在连续的数据集上使用fastText吗

不可以，fastText仅仅是用于离散的数据集，因此无法直接在连续的数据集上使用，但是可以将连续的数据离散化后使用fastText

9、数据中存在拼写错误，我们需要对文本进行规范化处理吗

如果出现的频率不高，没有必要，对模型效果不会有什么影响

10、在模型训练时遇到了NaN，为什么会这样

这种现象是可能出现的，很大原因是因为你的学习率太高了，可以尝试降低一下学习率直到不再出现NaN

11、系统无法编译fastText，怎么处理

尝试更新一下编译器版本，很大可能就是因为编译器太旧了

12、如何完全重现fastText的运行结果，为什么每次运行的结果都有些差异

当多次运行fastText时，因为优化算法异步随机梯度下降算法或Hogwild,所以每次得到的结果都会略有不同，如果想要fastText运行结果复现，则必须将参数thread设置为1，这样你就可以在每次运行时获得完成相同的性能

你可能感兴趣的:(fastText,分层softmax,n-gram,文本分类,词向量,NLP)

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Go 面向包的设计和架构分层云满笔记 golang 架构 directory layout src project
标题Go面向包的设计和架构分层序前项目架构分层工具包项目应用项目cmd/internal/internal/pkg/pkg/vendor/面向包的设计和验证包的位置依赖包导入应用级别的策略数据的发送和接收错误处理测试捕获错误不建议的目录结论Go面向包的设计和架构分层序本篇内容主要讲解golang项目的面向包设计准则和基础的架构分层。信息来自原文ArdanLabs:Package-Oriented-
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
欺诈文本分类检测（十四）：GPTQ量化模型沉下心来学鲁班微调分类人工智能语言模型微调
1.引言量化的本质：通过将模型参数从高精度（例如32位）降低到低精度（例如8位），来缩小模型体积。本文将采用一种训练后量化方法GPTQ，对前文已经训练并合并过的模型文件进行量化，通过比较模型量化前后的评测指标，来测试量化对模型性能的影响。GPTQ的核心思想在于：将所有权重压缩到8位或4位量化中，通过最小化与原始权重的均方误差来实现。在推理过程中，它将动态地将权重解量化为float16，以提高性能，
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
做不到这一点，你永远也别想向上层社会攀升悦聊悦喜欢
01社会即将分层，你处在第几层?这几天追看了几集热播剧《春风十里不如你》。该剧改编自冯唐的小说《北京北京》，讲述了一群考入医科大学的学生在八年的大学生涯中，互相结识，毕业后又几经坎坷，让他们对青春时代产生无尽怀念与感悟的故事。相比于主人公的光芒，剧中一个不起眼的人物——小玉，引起了我的注意。小玉来自小县城，是从农村考进北京的高材生，她是班级的第一名，学校的尖子生，全村的骄傲。片中有一幕剧情。在女生
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
Java程序的分层设计天天进步2015 架构设计 java 开发语言
Java程序的分层设计通常遵循分层架构（LayeredArchitecture）的原则，将应用程序分为多个相互独立但有依赖关系的层。这样设计有助于降低耦合度，提高可维护性和可扩展性。典型的Java分层设计包括以下几层：1.表示层（PresentationLayer/ViewLayer）功能：用户界面层，负责与用户交互。将用户输入的信息传递给业务层，同时将业务层返回的结果展示给用户。一般使用JSP、
英语日积月累2023-06-08 抽刀断水2
StratifiedStratifiedStratified分层此外，欧洲社会相对来说是分阶层的；职业和社会地位是通过继承得到的。Moreover,Europeansocietywasrelativelystratified;occupationandsocialstatuswereinherited.straightforwardstraightforwardstraightforward直爽的
LSP协议被劫持导致不能上网 tgl182 LSP协议
故障现象：最近有同事电脑浏览器打不开网页，DNS没问题，外网地址可以PING通，本地连接显示正常，登陆QQ显示网络连接超时，打开浏览器不能显示网页，网络丢包率达到了100%，本地连接数据包收到为0，查杀木马、病毒也不能解决问题。原因分析：WinsockLSP全称WindowsSocketLayeredServiceProvider(分层服务提供商)，它是Windows底层网络Socker通信需要经
云平台下存储运维的变革与实践宋罗世家技术屋 VIP专栏运维大数据
【摘要】未来存储监控平台可结合整体智能运维分层立体的监控体系，实现从基础设施到租户业务的端到端全覆盖的立体监控，提供基础监控、业务监控、链路监控等方面通用平台能力，将监控平台+云服务+一线运维等各云服务监控整合基于监控平台实现自己特定业务监控。现有运维体系的建设现状随着银行数字化转型升级进程的加快，IT系统架构越来越复杂，软件更新迭代越来越快。银行信息化建设中的大量业务和数据需要依靠信息系统来完成
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
常用的十种架构 G星雪架构
常用的十种架构1、分层模式（Layeredpattern）四个层次：表示层（UI层）应用层（服务层）业务逻辑层（领域层）数据访问层（持久化层）使用场景：通用桌面应用程序电子商务web应用2、客户端/服务器模式（Client-serverpattern）使用场景：电子邮件、文件共享及银行业务等在线应用3、主/从模式（Master-slavepattern）使用场景：数据库复制总线互联的各种设备4、管
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
【深入剖析】Kylin架构全景及其组件详解 2401_85763639 kylin 架构大数据
标题：【深入剖析】Kylin架构全景及其组件详解ApacheKylin是一个开源的分布式分析引擎，提供大数据集上的即时分析能力。它通过预计算技术，将数据以多维立方体的形式存储，从而加快查询速度。本文将详细探讨Kylin的架构及其组件，包括数据源、元数据存储、Cube构建、协调节点、查询引擎等关键部分。1.Kylin架构概述Kylin的架构设计为分层结构，每一层负责不同的功能和任务。2.数据源层Ky
TextCNN：文本卷积神经网络模型一只天蝎编程语言---Python cnn 深度学习机器学习
目录什么是TextCNN定义TextCNN类初始化一个model实例输出model什么是TextCNNTextCNN（TextConvolutionalNeuralNetwork）是一种用于处理文本数据的卷积神经网（CNN）。通过在文本数据上应用卷积操作来提取局部特征，这些特征可以捕捉到文本中的局部模式，如n-gram（连续的n个单词或字符）。定义TextCNN类importtorch.nnasn
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

fastText原理和文本分类实战，看这一篇就够了

fastText原理篇

一、fastText简介

二、fastText模型架构

三、层次softmax

四、N-gram特征

fastText实战篇

一、Fasttext介绍

1、什么是fastText

2、fastText环境要求

3、在本地快速搭建fastText

二、fastText教程-文本分类

1、什么是文本分类

2、安装fastText

3、获取数据及数据预处理

4、使用fastText快速搭建分类器

5、精准率Precision和召回率Recall

6、模型优化

(1) 方案一：数据预处理

(2) 方案二：更多的训练次数和更大的学习率

(3) 方案三：word n-grams

7、什么是Bigram

8、提升训练速度

9、总结

三、fastText教程-单词表示词向量

1、获取数据

2、训练词向量

3、skipgram VS cbow

4、模型参数调优

5、打印词向量

6、临近词向量查询

7、单词类比

8、 字符n-grams重要性

9、 结论

四、常用命令备忘录

五、模型可选参数列表及默认值

六、fastText中常见问题汇总

1、什么是fastText

2、为什么训练的模型非常大

3、模型中使用单词短语而不是单个单词最佳方式是什么

4、为什么fastText甚至可以为语料库中未出现的单词产生词向量

5、为什么分层softmax在效果上比完全softmax略差

6、可以在GPU上运行fastText项目吗

7、可以使用python语言或者其他语言使用fastText嘛

8、可以在连续的数据集上使用fastText吗

9、数据中存在拼写错误，我们需要对文本进行规范化处理吗

10、在模型训练时遇到了NaN，为什么会这样

11、系统无法编译fastText，怎么处理

12、如何完全重现fastText的运行结果，为什么每次运行的结果都有些差异

你可能感兴趣的:(fastText,分层softmax,n-gram,文本分类,词向量,NLP)

8、字符n-grams重要性

9、结论