AAI机器之心

NLP 自然语言处理实战

自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，用于分析理解机器与人之间的交互，常用的领域有：实体识别、文本纠错、情感分析、文本分类、关键词提取、自动摘要提取等方面。

本文将从分词、词频、词向量等基础领域开始讲解自然语言处理的原理，讲解 One-Hot、TF-IDF、PageRank 等算法及 LDA、LDiA、LSA 等语义分析的原理。

介绍 Word2vec、GloVe、Embedding 等常用词嵌入及 NLTK、Jieba 等分词工具的应用。

一、自然语言处理的概念

1.1 自然语言处理的起源

语言是人类社会发展过程的产物，是最能体现人类智慧和文明的证明，也是人类与动物最大的区别。它是一种人与人交流的载体，像计算机网络一样，我们使用语言相互传递知识。在人类历史的几千年，语言不断地繁衍发展。
在计算机兴趣的近几十年，科学界正在试图不断努力，把人类的语言演变成分析数据特征的依据。在1970年，有两位美国人 Richard Bandler 和 John Grinder 因不满于传统心理学派的治疗过程冗长，及其效果常反复不定，而集合各家所长以及他们独特的创见，在美国加州大学内（NLP的发源地）利用课余时间开始研究。经过三年多的实验与练习，终于逐渐形成NLP神经语法程式学的基础架构。
随着近年来人工智能的崛起，自然语言处理（NLP）更成为一种专业分析人类语言智能工具，被应用到了多个层面：

（1）机器翻译

机器翻译是利用计算机将某一种语言文本自动翻译成另一种语言文本的方法，它基于语言规则，利用统计的统计原理进度混合计算，得出最终结果。最常见于百度翻译、金山 iciba 翻译、有道翻译、google 翻译等。

（2）自动问答

自动问答通过计算机对人提出的问题的理解，利用自动推理等手段，在有关知识资源中自动求解答案并做出相应的回答。它利用语词提取、关键字分析、摘要分析等方式提取问题的核心主干，然后利用 NLP 分析数据选择出最合适的答案。常见的例子有在线问答 ask.com、百度知道、yahoo 回答等。

（3）语音处理

语言处理（speech processing）可以把将输入语音信号自动转换成书面文字或计算机命令，然后对任务进行操作处理。常见的应用场景有汽车的语言识别、餐厅智能点餐、机场火车站的智能预订航班、智能机器人等。

（4）情感分析
从大量文档中检索出用户的情感方向，对商品评价、服务评价等的满意进行分析，对用户进行商品服务推荐。在京东、淘宝等各大的购物平台很常用。

1.2 自然语言处理的阶段

自然语言实现一般都通过以下几个阶段：文本读取、分词、清洗、标准化、特征提取、建模。首先通过文本、新闻信息、网络爬虫等渠道获取大量的文字信息。然后利用分词工具对文本进行处理，把语句分成若干个常用的单词、短语，由于各国的语言特征有所区别，所以NLP也会有不同的库支撑。对分好的词库进行筛选，排除掉无用的符号、停用词等。再对词库进行标准化处理，比如英文单词的大小写、过去式、进行式等都需要进行标准化转换。然后进行特征提取，利用 tf-idf、word2vec 等工具包把数据转换成词向量。最后建模，利用机器学习、深度学习等成熟框架进行计算。

下面将对这几个处理流程进行逐一介绍。

二、分词器的原理及应用

2.1 分词器的基本原理在自然语言处理的过程中，把切分文件是流水线的第一步，它能够把文本拆分为更小的文本块或词语片段多块信息，每块信息都可以被看成是一个元素，这此元素出现的频率可以直接被看作为文本的向量。最常见的方法就是使用 split 方法。data='NLP stands for Natural Language Processing.'data.split()结果 [‘NLP’, ‘stands’, ‘for’, ‘Natural’, ‘Language’, ‘Processing.’]你可能已经看到，直接对语句进行拆分可以会把标点符号 ‘ . ’ 也带进数组。还有一些无用的操作符 ‘. ？！’ 等，最后势必会影响输出的结果。想要实现这类最简单的数据清洗，可以使用正则表达式来解决。data=‘NLP is the study of excellent communication–both with yourself, and with others.‘data=re.split(r’[-\s.?,!]’,data)当想去除一些无用的停用词（例如 ‘a,A’ ）、对词库进行标准化处理（例如词干还原，把进行式 building 转化成 build，把过去式 began 转化为 begin) 还有大小写转换时，可以使用成熟的库来完成。多国的语言都有差异，所以分词器的处理方式也有区别，下面将介绍英语单词与中文词汇比较常用的分词器 NLTK 和 Jieba 。

2.2 NLTK 库基础功能介绍

NLTK 使用 Python 程序编写，它提供了一套用于分类，标记化，词干化，标记，解析和语义推理的文本处理库，相关的模块如下。

2.2.1 分句 SentencesSegment

例如有一段文本里面包含三个句子，希望把它分成一个一个的句子。此时可以使用NLTK中的 punktsentencesegmenter。

1 sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
2 paragraph = "The first time I heard that song was in Hawaii on radio. ”+
3             "I was just a kid, and loved it very much! What a fantastic song!"
4 sentences = sent_tokenizer.tokenize(paragraph)
5 print(sentences)

运行结果

[‘The first time I heard that song was in Hawaii on radio.’,
‘I was just a kid, and loved it very much!’,
‘What a fantastic song!’]

2.2.2 分词 WordPunctTokenizer

1 from nltk.tokenize import WordPunctTokenizer
2 sentence = "Are you old enough to remember Michael Jackson attending ”+
3             “the Grammys with Brooke Shields and Webster sat on his lap during the show?"
4 words = WordPunctTokenizer().tokenize(sentence)　
5 print(words)

运行结果

[‘Are’, ‘you’, ‘old’, ‘enough’, ‘to’, ‘remember’, ‘Michael’, ‘Jackson’, ‘attending’,
‘the’, ‘Grammys’, ‘with’, ‘Brooke’, ‘Shields’, ‘and’, ‘Webster’, ‘sat’, ‘on’, ‘his’,
‘lap’, ‘during’, ‘the’, ‘show’, ‘?’]

2.2.3 正则表达式 RegexpTokenizer

最简单的方法去掉一些从文档中存在的 \n \t 等符号

1 from nltk.tokenize import RegexpTokenizer
2 sentence='Thomas Jefferson began \n building \t Monticello at the age of 26.'
3 tokenizer=RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
4 print(tokenizer.tokenize(sentence))

运行结果

[‘Thomas’, ‘Jefferson’, ‘began’, ‘building’, ‘Monticello’, ‘at’, ‘the’, ‘age’, ‘of’, ‘26’, ‘.’]

2.2.4 分词 TreebankWordTokenizer

TreebankWordTokenizer 拥有比 WordPunctTokenizer 更强大的分词功能，它可以把 don’t 等缩写词分为[ “do” , " n’t " ]

1 from nltk.tokenize import TreebankWordTokenizer
2 sentence="Sorry! I don't know."
3 tokenizer=TreebankWordTokenizer()
4 print(tokenizer.tokenize(sentence))

运行结果

[‘Sorry’, ‘!’, ‘I’, ‘do’, “n’t”, ‘know’, ‘.’]

2.2.5 词汇统一化

2.2.5.1 转换大小写

词汇统一化最常用的就是把大小进行统一化处理，因为很多搜索工具包都会把大小写的词汇例如 City 和 city 视为不同的两个词，所以在处理词汇时需要进行大小写转换。当中最简单直接的方法就是直接使用 str.lower() 方法。

2.2.5.2 词干还原

当单词中存在复数，过去式，进行式的时候，其词干其实是一样的，例如 gave , giving 词干都是 give 。相同的词干其实当中的意思是很接近的，通过词干还原可以压缩单词的数据，减少系统的消耗。NLTK 中提供了 3 个常用的词干还原工具：porter、lancaster、snowball ，其使用方法相类似，下面用 porter 作为例子。可以 playing boys grounded 都被完美地还原，但对 this table 等单词也会产生歧义，这是因为被原后的单词不一定合法的单词。

1 from nltk.stem import porter as pt
2 
3 words = [ 'wolves', 'playing','boys','this', 'dog', 'the',
4             'beaches', 'grounded','envision','table', 'probably']
5 stemmer=pt.PorterStemmer()
6 for word in words:
7      pt_stem = stemmer.stem(word)
8      print(pt_stem)

运行结果

2.2.5.3 词形并归

想要对相同语义词根的不同拼写形式都做出统一回复的话，那么词形归并工具就很有用，它会减少必须要回复的词的数目，即语言模型的维度。例如可以 good、goodness、better 等都归属于同一处理方式。通过wordnet.lemmatize(word，pos) 方法可指定词性，与常用的英语单词类似，n 为名词 v为动词 a为形容词等等。指定词性后还可以通过posterStemmer.stem() 还原词干。

1 stemmer=PorterStemmer()
2 wordnet=WordNetLemmatizer()
3 word1=wordnet.lemmatize('boys',pos='n')
4 print(word1)
5 
6 word2=wordnet.lemmatize('goodness',pos='a')
7 word2=stemmer.stem(word2)
8 print(word2)

运行结果

2.2.6 停用词

在词库中往往会存在部分停用词，使用 nltk.corpus.stopwords 可以找到 NLTK 中包含的停用词

1 stopword=stopwords.raw('english').replace('\n',' ')
2 print(stopword)

运行结果

通过对比可以对文件中的停用词进行过滤

1 words = [ 'the', 'playing','boys','this', 'dog', 'a',]
2 stopword=stopwords.raw('english').replace('\n',' ')
3 words=[word for word in words if word not in stopword]
4 print(words)

运行结果

[‘playing’, ‘boys’, ‘dog’]

2.2.3 把词汇扩展到 n-gram

上面例子中基本使用单个词作用分词的方式，然而很多短语例如：ice cream，make sense，look through 等都会多个单词组合使用，相同的单词在不同的短语中会有不同的意思。因此，分词也需要有 n-gram 的能力。针对这个问题 NTLK提供了 ngrams 函数，它可以按实现 2-gram、3-gram等多类型的元素划分。

1 sentence='Build the way that works best for you '+\
2                'with support for all your go-to integrations '+\
3                'including Slack Jira and more.'
4 words=sentence.split()
5 print(list(ngrams(words,2)))

运行结果

2.3 Jieba 库基础功能介绍

NLTK 库有着强大的分词功能，然而它并不支中文，中文无论从语法、格式、结构上都有很大的差别，下面介绍一个常用的中文库 Jieba 的基础功能。

2.3.1 分词 jieba.cut

jieba.cut 是最常用的分词方法，返回值为 generator。jieba.lcut 与 jieba.cut 类似，区别在于 jieba.lcut 直接返回 list。在数据量比较大时，jieba.cut 会更节省内存。

1 def cut(self, sentence, cut_all=False, HMM=True,             
2              use_paddle=False):

sentence 可为 unicode 、 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8。
当 cut_all 返回 bool，默认为 False。当 True 则返回全分割模式，为 False 时返回精准分割模式。
HMM 返回 bool，默认为 True，用于控制是否使用 HMM 隐马尔可夫模型。
use_paddle 返回 bool, 默认为 False, 用来控制是否使用paddle模式下的分词模式，paddle模式采用延迟加载方式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词，同时支持词性标注。

使用例子

1 sentence='嫦娥四号着陆器地形地貌相机对玉兔二号巡视器成像'
2 word1=jieba.cut(sentence,False)
3 print(list(word1))
4 word2=jieba.cut(sentence,True)
5 print(list(word2))

运行结果

2.3.2 搜索分词 jieba.cut_for_search

jieba.cut_for_search 与 jieba.cut 精确模式类似，只是在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词，返回值为 generator。jieba.lcut_for_search 与 jieba.cut_for_search 类似，但返回值为 list。

1 def cut_for_search(self,
2       sentence: Any,
3       HMM: bool = True) -> Generator[str, Any, None]

sentence 可为 unicode 、 UTF-8 字符串、GBK 字符串。
HMM 返回 bool，默认为 True，用于控制是否使用 HMM 隐马尔可夫模型。

使用例子

1 word1=jieba.cut_for_search('尼康Z7II是去年底全新升级的一款全画幅微单相机',False)
2 print(list(word1))
3 word2=jieba.cut_for_search('尼康Z7II是去年底全新升级的一款全画幅微单相机',True)
4 print(list(word2))

运行结果

2.2.3 载入新词 jieba.load_userdict

通过此方法可以预先载入自定义的用词，令分词更精准。文本中一个词占一行，每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。

例如：设定 word.txt 文本

阿里云 1 n
云计算 1 n

1 word1=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司')
2 print(list(word1))
3 jieba.load_userdict('C://Users/Leslie/Desktop/word.txt')
4 word2=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司')
5 print(list(word2))

运行结果

2.2.4 动态调节词典

通过 jieba.add_word 和 jieba.del_word 这两个方法也可以动态地调节词典

1 def add_word(self, word, freq=None, tag=None):

jieba.add_word 可以把自定义词加入词典，当中 freq 为词频，tag 为词性。

1 def del_word(self, word):

相反，通过 jieba.del_word 可以动态删除加载的自定义词

1 word1=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司')
2 print(list(word1))
3 jieba.add_word('阿里云')
4 jieba.add_word('云计算')
5 word2=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司')
6 print(list(word2))
7 jieba.del_word('阿里云')
8 word3=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司')
9 print(list(word3))

运行结果

2.2.5 词节词频 jieba.suggest_freq

此方法可调节单个词语的词频，使其能（或不能）被分出来。注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

1 def suggest_freq(self, segment, tune=False):

下面的例子就是把 “阿里云” 这个词拆分的过程

word1=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司')
print(list(word1))
jieba.suggest_freq('阿里云',True)
word2=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司',False,False)
print(list(word2))
jieba.suggest_freq(('阿里','云'),True)
word3=jieba.cut('阿里云是全球领先的云计算及人工智能科技公司',False,False)
print(list(word3))

运行结果

2.2.6 标注词性 jieba.posseg

通过 posseg.cut 可以查看标注词性，除此以外还可以 jieba.posseg.POSTokenizer 新建自定义分词器

1 words=jieba.posseg.cut('阿里云是全球领先的云计算及人工智能科技公司')
2 for word,flag in words:
3      print(word,flag)

运行结果

2.2.7 使用 jieba 计算词频

下面例子介绍一下如何使用 jieba 计算一篇文章的词频，首先读取文章内容，进行去标点处理，然后动态加入常用词，使用 jieba.lcut 方法进行分词。最后读取停用词，把文章的分词集合进行过滤，对每个词的词频进行计算。

 1 def readFile():
 2     # 读取文件
 3     file=open('C://Users/Leslie/Desktop/word.txt','r',102400,'utf8').read()
 4     # 去标点
 5     text=re.sub('[·。，\’!"#$%&'()＃！（）*+,-./:;<=>?@，：?￥★、…．＞【】［］《》？\“\”\‘\’[\]^_`{|}~]+'
 6                 ,'',file)
 7     # 加入常用词
 8     jieba.add_word('云计算')
 9     ......
10     # 利用 Jieba 分词
11     words=jieba.lcut(text)
12     print('总词数：{0}'.format(len(words)))
13     return words
14 
15 def stopWord():
16     # 读取停用词
17     stopword=[line.strip() for line in open('C://Users/Leslie/Desktop/stopword.txt','r',1024,'utf8')
18              .readlines()]
19     return stopword
20 
21 def wordFrequency():
22     # 获取文章的词
23     fileWords=readFile()
24     # 获取停用词
25     stopWords=stopWord()
26     words={}
27     # 计算词频
28     for word in fileWords:
29         if word not in stopWords:
30             if word not in words:
31                 words[word]=1
32             else:
33                 words[word]+=1
34     print('单词数: {0}'.format(len(words)))
35     return words
36 
37 if __name__=='__main__':
38     words=wordFrequency()
39     for item in words.items():
40         print(item)

运行结果

三、词向量

完成分词的工作后，在进行运算前，先要对数据进行向量化，常用的词向量有 one-hot 独热向量、 tf-idf 向量和 embedding 词嵌入等，下面将进一步介绍。

3.1 one-hot 独热向量

one-hot 独热向量是比较容易理解的一种词向量，它是把词汇表中的词的数量与词位置都进行记录，每个语句中所有信息都没有丢失，这也是 one-hot 的优点。
下面的例子先将词句按照原顺序进行分词，分词完成后，[1 0 0 0 0 0 0 0] 为第一个词 “珠穆朗玛峰”，[0 1 0 0 0 0 0 0] 为每二个词 “上”，如此类推。
然后把词组进行重排列作用测试数据 [‘上’, ‘如此’, ‘星空’, ‘是’, ‘珠穆朗玛峰’, ‘的’, ‘的’, ‘迷人’]，查看测试数据的 one-hot 向量。
通过测试结果可以看过，one-hot 对数据进行了全面记录，测试数据中每个词出现的顺序和次数都被完整地记录下来。

 1 def getWords():
 2     # 对句子进行分词
 3     sentence='珠穆朗玛峰上的星空是如此的迷人'
 4     words=jieba.lcut(sentence)
 5     print('【原始语句】：{0}'.format(sentence))
 6     print('【分词数据】：{0}'.format(words))
 7     return words
 8 
 9 def getTestWords():
10     # 把词集进行重新排序后作为测试数据
11     words=getWords().copy()
12     words.sort()
13     print('【测试数据】：{0}'.format(words))
14     return words
15 
16 def one_hot_test():
17     # 获取分词后数据集
18     words=getWords()
19     # 获取测试数据集
20     testWords=getTestWords()
21     size=len(words)
22     onehot_vectors=np.zeros((size,size),int)
23     # 获取测试数据 one_hot 向量
24     for i,word in enumerate(testWords):
25         onehot_vectors[i,words.index(word)]=1
26     return onehot_vectors
27 
28 if __name__=='__main__':
29     print(one_hot_test())

运行结果

通过结果可以看出每一行都只会有一个为非零值，估计这也是把此方法称作 one-hot 的原因，这样看起来虽然很直观，但是也浪费了很多的数据空间。一个简单的句子已经要使用 8*8 的数组，当使用大量训练数据时，比如 500 篇 3000 字的文章，常用的文字就有2000个，常用词可能会有 18000 个，模型所要耗费的存储资源将会成指数级的提升，所以这方法的实用性比较低。

3.2 TF-IDF 向量

为了克服 one-hot 向量的弱点，设计出了一个新的向量表示方法 TF-IDF 向量。TF-IDF(term frequency–inverse document frequency) 是一种用于信息检索与数据挖掘的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。常用于挖掘文章中的关键词，而且算法简单高效，常被工业用于最开始的文本数据清洗。
TF-IDF 不再关注分词出现的顺序而是更关注其出现的频率和次数。它由 TF 和 IDF 两部分组成，TF 是统计一个词在一篇文章中的出现频次。IDF 则统计一个词在文件集中的多少个文件出现。统计后字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

3.2.1 TF 词频

TF 词频是代表词在单篇文章中出现的频率，为了更好理解 TF ，举一个例子。假如在第一篇 1000 个总词数的文章，“ 云计算 ” 这个词出现了 50 次，那 TF 为 50 / 1000 ，即 0.05 。而在第二篇有 10000 个总词数的文章，“ 云计算 ” 出现了100 次，那 TF 为 100 / 10000，即 0.01。如此类推，下面是 TF 的计算公式：

当中 ni,j 代表词 i 在文章 j 中出现的频次，而分母 nk,j 则代表文章 j 中的每个词出现的次数的总和。

3.2.2 IDF 逆文本频率

而 IDF 逆文本频率指数是代表词语在文档中的稀缺程度，它等总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。例如有 1000 篇文件，其中有 30 篇包含了 “向量” 这个词，那 IDF 为 log(1000 / 30)，考虑到当文件不存这个词时分母会为 0，所以默认情况下会为分母加 1，即 log (1000 / 30 +1）。如此类推，下面是 IDF 的计算公式：

当中 D 代表所有文章的总数，Di 代表出现词 i 的文章数，为了避免词库中某些词在文章中没有出现过而造成分母为 0 的现象，所以把分母作加 1 处理。

3.2.3 TF-IDF 计算

TF-IDF 顾名思义就是代表 TF 与 IDF 的乘积

下面例子说明一下 TF-IDF 的计算方式，首先遍历文件夹里的所有文件，找到分词后进行 stopword 过滤，然后得到分词的集合 wordKeys。
根据分词集合 wordKeys 计算每篇文章中所包含的分词数量 wordsValues，在此显示一下这个分词值。
最后根据 TF-IDF 计算公式计算 TF-IDF ,显示计算结果。从计算结果可以看出，分词数量最多的值往往是负值，这里因为 IDF 计算中包含此词的文件数会跟 IDF 成反比。由于测试文件都是在网上下载关于 "云计算” 相关的论文，所以 “云计算” 这些分词的 TF-IDF 为负值。

  1 # 分词集合
  2 wordKeys=[]
  3 # 每个分词的数量集合
  4 wordValues=[]
  5 # 每篇文章的词量总数
  6 totalCounts=[]
  7 # tdidf 值
  8 tdidf = []
  9 
 10 def readFile(filepath):
 11     # 读取文件
 12     file=open(filepath,'r',102400,'utf8').read()
 13     # 去标点
 14     text=re.sub('[·。，\’!"#$%&'()＃！（）*+,-./:;<=>?@，：?￥★、…．＞【】［］《》？\“\”\‘\’[\]^_`{|}~]+'
 15                 ,'',file)
 16     # 加入常用词
 17     jieba.add_word('云计算')
 18     # ...
 19     # 利用 Jieba 分词
 20     words=jieba.lcut(text)
 21     return words
 22 
 23 def stopWord():
 24     # 读取停用词
 25     stopword=[line.strip() for line in open('../stopword.txt','r',1024,'utf8')
 26         .readlines()]
 27     stopword.append('\n')
 28     stopword.append(' ')
 29     stopword.append('\u200b')
 30     return stopword
 31 
 32 def getFilePath():
 33     # 读取目录下所有文件路径
 34     dir=os.walk('../files')
 35     filePath=[]
 36     for path,index,files in dir:
 37         for file in files:
 38             _path=os.path.join(path,file)
 39             filePath.append(_path)
 40     return filePath
 41 
 42 def getKeys():
 43     readData=[]
 44     # 获取文件路径
 45     filePath=getFilePath()
 46     # 获取停用词
 47     stopWords = stopWord()
 48     # 读取所有文本的词
 49     for file in filePath:
 50         readData=readData+readFile(file)
 51     # 过滤停用词
 52     for word in readData:
 53         if word not in stopWords and word not in wordKeys:
 54             wordKeys.append(word)
 55 
 56 def getValues():
 57     # 获取文件路径集合
 58     filePath=getFilePath()
 59     # 行 index
 60     index=0
 61     for file in filePath:
 62         # 行值
 63         values = []
 64         # 记录每个文档的分词总数
 65         totalCount=0
 66         # 获取分词
 67         words=readFile(file)
 68         # 获取每篇文章的分词数量
 69         counts=Counter(words)
 70         for key in wordKeys:
 71             if key in counts.keys():
 72                 values.append(counts[key])
 73                 totalCount+=counts[key]
 74             else:
 75                 values.append(0)
 76         # 插入行
 77         wordValues.insert(index,values)
 78         totalCounts.append(totalCount)
 79         index+=1
 80 
 81 def getTFIDF():
 82     list = np.array(wordValues)
 83     # 分行计算
 84     for index in range(0,len(wordValues)):
 85         col=0
 86         row=[]
 87         # 分别计算 TF 值与 IDF 值
 88         for value in wordValues[index]:
 89             # 计算 TF 值 
 90             tf=value / totalCounts[index]
 91             # 获取当前列的集合
 92             cols=list[:,col]
 93             # 计算有多少篇文档包含当前分词
 94             nonzerocount=np.count_nonzero(cols)
 95             # 计算 IDF
 96             idf=np.log10(len(list)/(nonzerocount+1))
 97             # 计算 TFIDF 把计算结果加入集合
 98             row.append(tf*idf)
 99             col+=1
100         # 插入行
101         tdidf.insert(index,row)
102         index+=1
103 
104 if __name__=='__main__':
105     getKeys()
106     getValues()
107     # 查看过滤后每个分词在每篇文章中的数量
108     dataset=pd.DataFrame(wordValues,columns=wordKeys)
109     print(dataset.head(3))
110     # 查看计算后的 TFIDF 值
111     getTFIDF()
112     tfidfSet=pd.DataFrame(tdidf,columns=wordKeys)
113     print(tfidfSet.head(3))

运行结果

3.3 TfidfVectorizer 简介

上面例子通过 python 手动实现 TF-IDF 的计算，其实在 sklearn 中已有 TfidfVectorizer 类支持 TF-IDF 运算，它包含大量的常用方法，使计算起来变得特别简单，下面简单介绍一下。

 1 class TfidfVectorizer(CountVectorizer):
 2     @_deprecate_positional_args
 3     def __init__(self, *, input='content', encoding='utf-8',
 4                  decode_error='strict', strip_accents=None, lowercase=True,
 5                  preprocessor=None, tokenizer=None, analyzer='word',
 6                  stop_words=None, token_pattern=r"(?u)\b\w\w+\b",
 7                  ngram_range=(1, 1), max_df=1.0, min_df=1,
 8                  max_features=None, vocabulary=None, binary=False,
 9                  dtype=np.float64, norm='l2', use_idf=True, smooth_idf=True,
10                  sublinear_tf=False):

参数说明

input：str 类型 {‘filename’, ‘file’, ‘content’}，输入值。如果是’filename’，序列作为参数传递给拟合器，预计为文件名列表，这需要读取原始内容进行分析; 如果是’file’，序列项目必须有一个”read“的方法（类似文件的对象），被调用作为获取内存中的字节数; 也可直接输入预计为序列串，或字节数据项都预计可直接进行分析。
encoding：str 类型，编码类型，默认为 ‘utf-8’by default
decode_error: str 类型 {‘strict’, ‘ignore’, ‘replace’} 三选一，默认为 ’ strict’ 表示UnicodeDecodeError将提高。参数表示如果一个给出的字节序列包含的字符不是给定的编码，指示应该如何去做。
strip_accents: str 类型 {‘ascii’, ‘unicode’, None} 三选一，默认为 ’ None’ 。在预处理步骤中去除编码规则(accents)，”ASCII码“是一种快速的方法，仅适用于有一个直接的ASCII字符映射，"unicode"是一个稍慢一些的方法，None（默认）什么都不做
lowercase: bool 类型，默认为 True，执行前把字母变为小写
preprocessor：callable or None，默认为None，当保留令牌和”n-gram“生成步骤时，覆盖预处理（字符串变换）的阶段
tokenizer：callable or None 默认为 default，当保留预处理和n-gram生成步骤时，覆盖字符串令牌步骤
analyzer：str类型 {‘word’, ‘char’} or callable 定义特征为词（word）或n-gram字符，如果传递给它的调用被用于抽取未处理输入源文件的特征序列
stop_words：{‘english’} 或 list, 默认为 None。english，用于英语内建的停用词列表。list，该列表被假定为包含停用词，列表中的所有词都将从令牌中删除。None，不使用停用词。max_df可以被设置为范围 [0.7, 1.0) 的值，基于内部预料词频来自动检测和过滤停用词
token_pattern：str类型，默认为 r"(?u)\b\w\w+\b"。正则表达式显示了”token“的构成，仅当analyzer == ‘word’时才被使用。两个或多个字母数字字符的正则表达式（标点符号完全被忽略，始终被视为一个标记分隔符）。
ngram_range: tuple(min_n, max_n)，默认为（1，1）。要提取的n-gram的n-values的下限和上限范围，在min_n <= n <= max_n区间的n的全部值
max_df： float in range [0.0, 1.0] or int, optional, 默认值为 1.0 。当构建词汇表时，严格忽略高于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值，如果词汇表不为None，此参数被忽略。
min_df：float in range [0.0, 1.0] or int, optional, 默认为 1.0 。当构建词汇表时，严格忽略低于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值，如果词汇表不为None，此参数被忽略。
max_features： optional，默认为 None 。如果不为 None，构建一个词汇表，仅考虑 max_features 按语料词频排序，如果词汇表不为None，这个参数被忽略
vocabulary：Mapping or iterable， optional 默认为 None。一个映射（Map）（例如，字典），其中键是词条而值是在特征矩阵中索引，或词条中的迭代器。如果没有给出，词汇表被确定来自输入文件。在映射中索引不能有重复，并且不能在0到最大索引值之间有间断。
binary：bool类型，默认为 False。如果为 True，所有非零计数被设置为1，这对于离散概率模型是有用的，建立二元事件模型，而不是整型计数
dtype：type，默认为 np.float 64 。通过fit_transform()或transform()返回矩阵的类型
norm：‘l1’, ‘l2’, or None，默认为 ’l2’。范数用于标准化词条向量。None为不归一化
use_idf：bool，默认为 True。是否启动 inverse-document-frequency重新计算权重
smooth_idf：bool 默认为 True。通过加1到文档频率平滑idf权重，为防止除零，加入一个额外的文档
sublinear_tf：bool默认为 False。是否应用线性缩放TF，例如，使用1+log(tf)覆盖 tf

常用方法

fit(self, raw_documents, y=None): 表示用数据 raw_documents 来训练模型。
transform(selft ,raw_documents)：将数据 raw_documents 使用通过学习的词汇和文档频率进行运算。通过与 fit 同用，先调用 fix，当模型训练好后，再使用 transform 方法来运算。
fit_transform(self, raw_documents, y=None):　相当于结合了 fit 与 transform 两个方法。用 raw_documents 来训练模型，同时返回运算后的数据。
inverse_transform(self, X)：将运算后的数据转换成为原始数据。

TfidfVectorizer 模型可以直接通过 fit_transform 方法直接计算出 TF-IDF 向量，无需进行繁琐的公式运算。还可在建立模型时设置如停用词，n-gram，编码类型等多个常用的运算条件。

 1 corpus = [
 2     'In addition to having a row context',
 3     'Usually a smaller text field',
 4     'The TFIDF idea here might be calculating some rareness of words',
 5     'The larger context might be the entire text column',
 6 ]
 7 
 8 def stopWord():
 9     # 读取停用词
10     stopword=[line.strip() for line in open('C://Users/Leslie/Desktop/stopword.txt','r',1024,'utf8')
11         .readlines()]
12     return stopword
13 
14 def tfidfVectorizerTest():
15     words=corpus
16     #建立tfidf模型
17     vertorizer=tfidfVectorizer(stop_words=stopWord()，ngram_range=(1,2))
18     #训练与运算
19     model=vertorizer.fit_transform(words)
20     #显示分词
21     print(vertorizer.vocabulary_)
22     #显示向量
23     print(model)
24 
25 if __name__=='__main__':
26     tfidfVectorizerTest()

运行结果

TfidfVectorizer 毕竟是针对外语单词格式所设计，所以用到中文时需要把句子转换成类似外语的格式。行利用 jieba 先进行分词，然后重新组合成句子，在每个分词后加上空格。

 1 corpus = [
 2     '北京冬奥会完美落下帷幕',
 3     '冬奥生态内容方面的表现给用户留下深刻印象',
 4     '全平台创作者参与冬奥内容创作',
 5     '此次冬奥会对于中国是一次重要的里程碑时刻',
 6 ]
 7 
 8 def stopWord():
 9     # 读取停用词
10     stopword=[line.strip() for line in open('C://Users/Leslie/Desktop/stopword.txt','r',1024,'utf8')
11         .readlines()]
12     return stopword
13 
14 def getWord():
15     # 转换集合格式后再进行分词
16     list=[jieba.lcut(sentence) for sentence in corpus]
17     # 在每个词中添加空格符
18     word=[' '.join(word) for word in list]
19     return word
20 
21 def tfidfVectorizerTest():
22     words=getWord()
23     # 打印转换格式后的分词
24     print(str.replace('格式转换:{0}\n'.format(words),',','\n\t\t'))
25     # 建立模型
26     vertorizer=tfidfVectorizer(stop_words=stopWord())
27     # 模型训练
28     model=vertorizer.fit_transform(words)
29     print('分词:{0}\n'.format(vertorizer.vocabulary_))
30     print(model)
31 
32 if __name__=='__main__':
33     tfidfVectorizerTest()

运行结果

3.4 浅谈 PageRank 算法

除了 TF-IDF 算法，还有一种较为常用的 PageRank 算法。它是由 Mihalcea 与 Tarau于提出，其思想与 TF-IDF 有所区别，它是通过词之间的相邻关系构建网络，然后用迭代计算每个节点的 rank 值，排序 rank值即可得到关键词。公式如下，其中 PR(Vi)表示结点Vi的rank值，In(Vi)表示结点Vi的前驱结点集合，Out(Vj)表示结点Vj的后继结点集合，d为damping factor用于做平滑，其原理在此暂不作详细讲解。

TextRank 算法与 TF-IDF 算法均严重依赖于分词结果，如果某词在分词时被切分成了两个词，那么在做关键词提取时无法将两个词黏合在一起（TextRank有部分黏合效果，但需要这两个词均为关键词）。因此是否添加标注关键词进自定义词典，将会造成准确率、召回率大相径庭。TextRank 虽然考虑到了词之间的关系，但是仍然倾向于将频繁词作为关键词，其效果并不一定优于 TF-IDF。

四、文本相似度分析

4.1 余弦相似度定义

完成分词后利用 TF-IDF 算法把分词成功转换成向量，便可以开始对向量进行计算，最常用的方法是余弦相似度计算。为了更好地理解，假设在二维空间有向量 doc1（x1,y1）和向量doc2 (x2, y2)，可以简单地理为分词 word1，word2 在 doc1 中的词频为 x1, y1，在 doc2 中的词频为 x2, y2。

根据欧几里得点积公式

可推算出余弦相似度计算公式

当值越大时证明相似度越高，当值越小时证明相似度越低。
在此例子中可以理解为当两个分词 word 1, word2 在 doc1 ,doc2 的词频非常接近时，两篇文章的内容被视为非常相似。
当余弦相似度为0时，相当于 doc1 只含有 word 1，而 doc2 只含有 word2，则被视作向量之间没有任何相似成分。当余弦相似度为 -1 时，则意味着方向正好相反。

现实应用中每篇文章肯定不止两个分词，根据同样道理，可以把多维度的计算公式扩展如下

4.2 余弦相似度计算

在 sklearn.metrics.pairwise 中提供了余弦相似度计算的函数 cosine_similarity 和余弦距离计算函数 cosine_distances 可以通过简单的运算计算出余弦相信度

4.2.1 cosine_similarity 函数

1 def cosine_similarity(X, Y=None, dense_output=True):

当中 X 代表第一个对比值，Y 代表第二个对比值，若 Y 为 None 时则会对 X 输入的数组作相似性对比。
当 dense_output 为True 则无论输入是否稀疏，都将返回密集输出。若 dense_output 为 False 时，如果两个输入数组都是稀疏的，则输出是稀疏的。

 1     x0=np.array([0.895,0.745]).reshape(1,-1)
 2     y0=np.array([0.568,0.445]).reshape(1,-1)
 3     similarity0=cosine_similarity(x0,y0)
 4     print('similarity0 is:\n{0}\n'.format(similarity0))
 5 
 6     x1=np.arange(4).reshape(2,2)
 7     similarity1=cosine_similarity(x1)
 8     print('similarity1 is:\n{0}\n'.format(similarity1))
 9 
10     x2=np.arange(10).reshape(2,5)
11     y2=np.arange(15).reshape(3,5)
12     similarity2=cosine_similarity(x2,y2)
13     print('similarity2 is:\n{0}\n'.format(similarity2))

运行结果

4.2.2 cosine_distances 函数

1 def cosine_distances(X, Y=None):

cosine_distances 用法与 cosine_similarity 类似，只是 cosine_distances 返回的是余弦的距离，余弦相似度越大，余弦距离越小

 1     x0=np.array([0.895,0.745]).reshape(1,-1)
 2     y0=np.array([0.568,0.445]).reshape(1,-1)
 3     distances0=cosine_distances(x0,y0)
 4     print('distances0 is:\n{0}\n'.format(distances0))
 5 
 6     x1=np.arange(4).reshape(2,2)
 7     distances1=cosine_distances(x1)
 8     print('distances1 is:\n{0}\n'.format(distances1))
 9 
10     x2=np.arange(10).reshape(2,5)
11     y2=np.arange(15).reshape(3,5)
12     distances2=cosine_distances(x2,y2)
13     print('distances2 is:\n{0}\n'.format(distances2))

运行结果

4.3 文本相似度计算

根据余弦相似度，可以对 TF-IDF 向量进行比较，计算出文本之间的关联度。此原理常被广泛应用于聊天机器人，车机对话，文本自动回复等领域。先预设多个命令与回复，计算出 TF-IDF 向量，然后把输入的命令 TF-IDF 向量与预设命令的 TF-IDF 向量进行对比，找出相似度最高的命令，最后输出相关的回复。
下面以车机系统为例子，说明一下文本相似度计算的应用。command 代表多个车机的预设命令与回复数组，先通过 jieba 把中文命令转化为相关格式，对 TfidfVectorizer 模型进行训练。然后分别计算 command 预计命令的 TF-IDF 向量和 inputCommand 输入命令的 TF-IDF 向量。通过余弦相似度对比，找到相似度最高的命令，最后输出回复。

 1 # 车机的命令与回复数组
 2 command=[['请打开车窗','好的，车窗已打开'],
 3          ['我要听陈奕迅的歌','为你播放富士山下'],
 4          ['我好热','已为你把温度调到25度'],
 5          ['帮我打电话给小猪猪','已帮你拨小猪猪的电话'],
 6          ['现在几点钟','现在是早上10点'],
 7          ['我要导航到中华广场','高德地图已打开'],
 8          ['明天天气怎么样','明天天晴']
 9         ]
10 
11 # 利用 jieba 转换命令格式
12 def getWords():
13     comm=np.array(command)
14     list=[jieba.lcut(sentence) for sentence in comm[:,0]]
15     words=[' '.join(word) for word in list]
16     return words
17 
18 # 训练 TfidfVectorizer 模型
19 def getModel():
20     words=getWords()
21     vectorizer=TfidfVectorizer()
22     model=vectorizer.fit(words)
23     print(model.vocabulary_)
24     return model
25 
26 # 计算 consine 余弦相似度
27 def consine(inputCommand):
28     # 把输入命令转化为数组格式
29     sentence=jieba.lcut(inputCommand)
30     words=str.join(' ',sentence)
31     list=[]
32     list.insert(0,words)
33     # 获取训练好的 TfidfVectorizer 模型
34     model=getModel()
35     # 获取车机命令的 TF-IDF 向量
36     data0=model.transform(getWords()).toarray().reshape(len(command),-1)
37     # 获取输入命令的 TF-IDF 向量
38     data1=model.transform(list).toarray().reshape(1,-1)
39     # 余弦相似度对比
40     result=cosine_similarity(data0,data1)
41     print('相似度对比：\n{0}'.format(result))
42     return result
43 
44 if __name__=='__main__':
45     comm='我要听陈奕迅的歌'
46     # 获取余弦相似度
47     result=np.array(consine(comm))
48     # 获取相似度最高的命令 index
49     argmax=result.argmax()
50     # 读取命令回复
51     data=command[argmax][1]
52     print('命令：{0}\n回复：{1}'.format(comm,data))

运行结果

五、通过主题转换进行语义分析

5.1 LSA 隐性语义分析的定义

上面的例子都是通过分词的 TF-IDF 向量以余弦相似度对比分析文本内容的相似性，其实 TF-IDF 向量不仅适用于词，还适用于多词组合的 n-gram 分析。通过多个分词的不同组合，可以揭示一篇文章的语义，核心主题等。NLP 开发人员发现一种提示词组合的算法，被称为 LSA (Latent Semantic Analysis 隐性语义分析)。
LSA 可用于文本的主题提取，挖掘文本背后的含义、数据降维等方面。例如一篇文章的分词中 “ 服务、协议、数据交换、传输对象” 占比较大的，可能与 “ 云计算 ” 主题较为接近; “ 分词、词向量、词频、相似度” 占比较大的可能与 " 自然语言开发 " 主题较为接近。在现实的搜索引擎中，普通用户所输入的关键词未必能与分词相同，通过核心主题分析，往往更容易找出相关的主题文章，这正是 LSA 语义分析的意义。

5.2 SVD 奇异值分解原理

LSA 是一种分析 TF-IDF 向量的算法，它是基于 SVD ( Singular Value Decomposition 奇异值分解 ) 技术实现的。SVD 是将矩阵分解成三个因子矩阵的算法，属于无监督学习模型，这种算法也被常用在图像分析领域。
在图像分析领域 SVD 也被称作 PCA 主成分分析，在《 Python 机器学习实战》系列的文章中，曾对 PCA 主成分分析作详细介绍，对此话题有兴趣的朋友可阅读《 Python 机器学习实战 —— 无监督学习》

SVD 公式表示如下，m 为词汇中的分词数量，n 为文档数量，p为库的主题数量。通过 SVD 算法，可以把包含大量分词的文章划分成多个主题的专栏。

其中向量 U 是分词-主题矩阵，它给出分词所具有的上下文信息，代表分词与主题的相互关系，也被称为 “ 左奇异向量 ”。

向量 S 是主题奇异值的对象线方阵，例如有 6 个主题的文档库 S 值就会是一个 6*6 的矩阵。

向量 V 是主题-文档矩阵，它建立了新主题与文档之间的关系，也被称为 “ 右奇异向量 ”。

5.3 TruncatedSVD 模型

在 sk-learn 库中提供了sklearn.decomposition.TruncatedSVD 模型用于进行 SVD 分析。SVD 是无监督模型，通过SVD 可以把多维的数量进行主题转换实现降维，常被用于情感分析和垃圾信息处理。

1 class TruncatedSVD(TransformerMixin, BaseEstimator):
2     @_deprecate_positional_args
3     def __init__(self, n_components=2, *, algorithm="randomized", n_iter=5,
4                  random_state=None, tol=0.):
5         self.algorithm = algorithm
6         self.n_components = n_components
7         self.n_iter = n_iter
8         self.random_state = random_state
9         self.tol = tol

参数说明

algorithm：str 类型 {‘arpack’, ‘randomized’} 之一，默认值为 “randomized”，用于选择 SVD 算法。arpack 为 SciPy中 ARPACK 包装器（ “scipy.sparse.linalg.svds”）; randomized 为算法由于Halko 中的随机算法（randomized）
n_components：int 类型，默认值为 2，选择主题数量
n_iter： int 类型，默认值为 5，运算时的迭代次数
randow_state：int ，RandomState 实例或 None，默认值为 None。在随机初始化 svd 期间使用，传递一个 int 以获得可重现的结果多个函数调用。
tol: float 类型，默认值为 0.0。当 algorithm 为 arpack 时使用，选择机器精度。当 algorithm 为 randomized 算法时自动忽略此设置。

转换主题时可先利用 TfidfVectorizer 将数据进行 TF-IDF 向量化，然后使用 TruncatedSVD 模型设置转换输出的主题类型数量，对主题的相关数据进行情感分析。
下面例子是从今日头条下载的资料，里面包含了财经、运动、娱乐、文化等多个主题。首先利用 jieba 进行分词，然后使用 TD-IDF 进行向量化处理，然后使用 TruncatedSVD 模型把 30000 多个分词进行主题化处理，转换成 10 个 components。
假设财经主题 finance 包含有 [‘股份’,‘银行’,‘股票’,‘投资’,‘股市’,‘黄金’,‘市场’,‘证券’,‘科技’,‘有限公司’] 等常用关键字，在 componets 中找到对应 finance 主题的关键字向量，对其进行情感分析。通过 svdVectorsDisplay（）可分别显示金融主题最大正值内容和最小负值内容。

 1 # 金融主题的关键字
 2 finance=['股份','银行','股票','投资','股市','黄金','市场','证券','科技','有限公司']
 3 
 4 # 利用 jieba 转换命令格式
 5 def getWords():
 6     file=open('C://Users/Leslie/Desktop/toutiao/news.txt','r',1024,'utf-8').read()
 7     sentences=np.array(file.split('\n'))
 8     # jieba 分词
 9     list=[jieba.lcut(sentence) for sentence in sentences]
10     # 转换中文分词格式
11     words=[' '.join(word) for word in list]
12     return words
13 
14 # 训练 TF-IDF 向量
15 def getTfidfVector():
16     tfidf = TfidfVectorizer()
17     # 获取分词
18     words=getWords()
19     # 训练模型，返回 TF-IDF 向量
20     vector=tfidf.fit_transform(words)
21     return tfidf,vector
22 
23 def svdComponent():
24     # 获取 TF-IDF 向量
25     tfidf,vectors=getTfidfVector()
26     # 建立 SVD 模型
27     svd=TruncatedSVD(n_components=10,n_iter=10)
28     # 获取 TF-IDF 向量,训练 SVD 模型
29     svd=svd.fit(vectors)
30     svd_vectors=svd.transform(vectors)
31     # 显示主题
32     keys=tfidf.vocabulary_.keys()
33     # 获取相关主题的 components 向量
34     dataframeComponents=pd.DataFrame(svd.components_,columns=keys)
35     # 按照 component 5 进行相关性排序
36     dataframeVectors = pd.DataFrame(svd_vectors).sort_values(5, ascending=False).head(10)
37     svdComponentDisplay(dataframeComponents)
38     svdVectorsDisplay(dataframeVectors)
39 
40 def svdComponentDisplay(dataframe):
41     # 获取与 finance 金融有关的关键词主题向量
42     topic = dataframe[finance] * 10000
43     # 显示与金融主题相关的SVD模型component主题
44     pd.options.display.max_columns = 10
45     # 打印主题向量及向量总值
46     print(topic)
47     print(topic.T.sum())
48 
49 def svdVectorsDisplay(dataframe):
50     print(dataframe)
51     words=getWords()
52     # 金融主题 finance 关键字相关性语句
53     for row in dataframe.iterrows():
54         index = row[0]
55         print(words[index])
56 
57 if __name__=='__main__':
58     svdComponent()

运行结果

从运行结果可以看出，component 4 和 component 5 对金融主题的正向情感最高，尝试打印主题 5 正向情感前10个最大值的内容

component 7 负向情感主题最高，打印主题 7 负向情感前 10 个最小值的内容，可见内容大部分是娱乐主题内容，与金融主题无关。

类似地也可以用娱乐关键字 entertainment [‘电影’, ‘范冰冰’,‘电影节’,‘活动’,‘复仇者’,‘粉丝’,‘娱乐圈’,‘明星’] 作为主题调用 svdComponentDisplay（）方法进行数据筛选

进行主题转换后查看 component 0 的娱乐正向情感信息，可见内容基本上都是关于娱乐信息

类似地查看 component 2 娱乐负向情感数量，大部分都是关于金融类的信息

5.4 LDA 线性判别分析

线性判别分析（Linear Discriminant Analysis，简称 LDA）是一种经典的数据主题分析方法，它与 LSA 最大区别在于 LDA 属于监督学习模型，而 LSA 是无监督学习模型。LDA 的主要思想是将一个高维空间中的数据投影到一个较低维的空间中，且投影后要保证各个类别的类内方差小而类间均值差别大，这意味着同一类的高维数据投影到低维空间后相同类别会尽量聚在一起，而不同类别之间相距较远。
LDA 模型与 PCA 模型有点类似，然而最大区别在于：PCA方法寻找的是数据变化的主轴方向，从而根据主轴判别分析寻找的是用来有效分类的方向。这对样本数据的主要变化信息非常有效，然而却忽略了次要变化的信息。
而 LDA 模型是将高维样本数据投影到低维度的向量空间，根据投影后的向量进行分类判断。投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。
下图就是将二维数据投影到一维直线上，里面显示出 PCA 与 LDA 投影的区别：

5.5 LinearDiscriminantAnalysis 模型

在 sklearn 库中提供了 sklearn.discriminant_analysis.LinearDiscriminantAnalysis 模型进行 LDA 线性分析。

1 class LinearDiscriminantAnalysis(LinearClassifierMixin,
2                                  TransformerMixin,
3                                  BaseEstimator):
4     def __init__(self, solver='svd', shrinkage=None, priors=None,
5                  n_components=None, store_covariance=False, tol=1e-4,
6                  covariance_estimator=None):

参数说明

solver : str 类型 [‘svd’，‘lsqr’，‘eigen’ ] 之一，默认为 ‘svd’ ，选择LDA超平面特征矩阵使用的方法。可以选择的方法有奇异值分解"svd"，最小二乘"lsqr"和特征分解"eigen"。一般来说特征数非常多的时候推荐使用svd，而特征数不多的时候推荐使用eigen。如果使用 svd，则不能指定正则化参数shrinkage进行正则化。
shrinkage：float 类型，或 [ ‘auto’,’ None’] 正则化参数，默认为 None 。可以增强LDA分类的泛化能力，如果仅仅只是为了降维，则一般可以忽略这个参数。“auto” 代表让算法自己决定是否正则化。也可在 [0,1] 之间的值进行交叉验证调参。该参数只在 solver 为"lsqr"和 “eigen” 时有效, ‘svd’ 时自动作废。
priors ：array 数组类型，默认为None。例如 [ n_class , ] ，用于定义类别权重，可以在做分类模型时指定不同类别的权重，进而影响分类模型建立。降维时一般不需要关注这个参数。
n_components：int 类型，默认为 None ，即我们进行LDA降维时降到的维数。需要值必须小于输入数据的维度减一。
store_covariance：bool 类型，默认为 False，是否额外计算每个类别的协方差矩阵。
tol：float 类型，默认为 1e-4，用它指定了用于SVD算法中评判迭代收敛的阈值。
warm_start：bool 类型，默认值为 False，当设置为True时，重用之前调用的解决方案作为初始化，否则，只需要删除前面的解决方案
covariance_estimator：str 类型，[ ‘covariance_estimator’ 或 None ] 之一, 默认为None。如果不是 None，则使用 covariance_estimator 来估计协方差矩阵，而不是依赖于协方差估计器（具有潜在的收缩率）。对象应具有拟合方法和 covariance_ 属性，如 sklearn.covariance 中的估计器。如果为 None，则使用收缩率参数驱动估计值。

下面例子将使用 LinearDiscriminantAnalysis 模型对科技类文本和娱乐类文本进行分析，为了避免训练时间过长，所以只拿了 4000 条数据进行训练。把数据转化为 TF-IDF 向量后，使用 LDA 模型进行训练，只由只有 2 类，所以 n_components 设置为 1 即可。最后查看测试结果，准确率已经在 90% 以上。

 1 # 科技、娱乐的两个文本路径
 2 paths=['C://Users/Leslie/Desktop/toutiao/news_finance.txt',
 3       'C://Users/Leslie/Desktop/toutiao/news_entertainment.txt']
 4 # 科技类信息标记为0，娱乐类信息标记为1
 5 result = []
 6 
 7 # 利用 jieba 转换命令格式
 8 def getWords():
 9     data = []
10     type = 0
11     # 获取路径中的两类文件
12     for path in paths:
13         file=open(path,'r',1024,'utf-8').read()
14         #分行读取，由于运行时间较长，所以只拿前2000条数据
15         sentences=np.array(file.split('\n'))[:2000]
16         # jieba 分词，记录分类结果
17         for sentence in sentences:
18             data.append(jieba.lcut(sentence))
19             result.append(type)
20         type+=1
21     # 转换中文分词格式
22     words=[' '.join(word) for word in data]
23     return words
24 
25 # 训练 TF-IDF 向量
26 def getTfidfVector():
27     tfidf = TfidfVectorizer()
28     # 获取分词
29     words=getWords()
30     # 训练模型，返回 TF-IDF 向量
31     vector=tfidf.fit_transform(words)
32     return vector.toarray()
33 
34 def ldaTest():
35     # 把 TF-IDF 向量切分为训练数据与测试数据
36     X_train,X_test,y_train,y_test=train_test_split(getTfidfVector(),result,random_state=22)
37     # 由于只是二分类，n_components 为 1 即可
38     lda=LDA(n_components=1)
39     # 训练模型
40     lda.fit(X_train,y_train)
41     # 输出准确率
42     y_model=lda.predict(X_test)
43     print('准确率为：{0}'.format(accuracy_score(y_test,y_model)))
44 
45 if __name__=='__main__':
46     ldaTest()

运行结果

5.6 LDiA 隐性狄利克雷分布

隐性狄利克雷分布 ( Latent Dirichlet Allocation，简称 LDiA）与 LSA 类似也是一种无监督学习模型，但与相对于 LSA 的线性模型不同的是 LDiA 可以将文档集中每篇文档的主题按照概率分布的形式给出，从而更精确地统计出词与主题的关系。
LDiA 假设每篇文章都是由若干个主题线性混合而成的，每个主题都是由若干个分词组合而成，文章中每个主题的概率与权重以及每个分词被分配到主题的概率都满足 “ 狄利克雷概率 ” 的分布特征，估计这个也算法命名的原因。其计算公式如下：

当中 B (α）为

5.7 LatentDirichletAllocation 模型

在 sklearn 库中提供了 sklearn.decomposition.LatentDirichletAllocation 模型进行 LDiA 分析

1 class LatentDirichletAllocation(TransformerMixin, BaseEstimator):
2     @_deprecate_positional_args
3     def __init__(self, n_components=10, *, doc_topic_prior=None,
4                  topic_word_prior=None, learning_method='batch',
5                  learning_decay=.7, learning_offset=10., max_iter=10,
6                  batch_size=128, evaluate_every=-1, total_samples=1e6,
7                  perp_tol=1e-1, mean_change_tol=1e-3, max_doc_update_iter=100,
8                  n_jobs=None, verbose=0, random_state=None):

参数说明

n_components：int 类型，默认为 10 ，即我们进行LDA降维时降到的维数。需要值必须小于输入数据的维度减一。
doc_topic_prior: float 类型，默认为None, 即狄利克雷概率计算公式中的 θ 参数。如果为 None 即 θ 默认为 1/ n_components。
topic_word_prior: float 类型，默认为None, 狄利克雷概率计算公式中的 α 参数。如果为 None 即 α 默认为 1/ n_components。
learning_method: str 类型 {‘batch’, ‘online’}之一，默认为 ‘batch’，代表用于更新_component 的方法。如果数据量非常大时 ’online’ 会比 ‘batch’ 运行更快。
learning_decay：float 类型，默认值为 0.7 ，控制学习时的速率。仅在 learning 为 "online"时有效，取值一般在 [ 0.5, 1.0] 之间
learning_offset：float 类型，默认值为10.0，用于降低学习早期迭代的权重。仅在 learning 为 "online"时有效，取值要大于1。
max_iter：int 类型，默认值为 10，部分求解器需要通过迭代实现，这个参数指定了模型优化的最大迭代次数。
batch_size: int 类型，默认为128，EM 迭代算法时每次选择的文本数，仅在 learning 为 “online” 时有效
evaluate_every: int 类型，默认为-1。影响 fit 方法的运行，为 0 或负数时不会对训练数据的模型指标。它可能帮助改善数据的收敛性，但也会影响训练的效率，或许会延长训练时间
total_samples : int 类型, 默认为 1e6，输入的文档总数，只在方法 partial_fit() 中有效
perp_tol：float 类型，默认为 1e-1, 指批量学习中的容忍度，仅在 evaluate_every 大于0时有效。
mean_change_tol: float 类型，默认为 1e-3 , 即E步更新变分参数的阈值,所有变分参数更新小于阈值则E步结束，转入M步
max_doc_update_iter: int 类型，默认为 100，即E步更新变分参数的最大迭代次数，如果E步迭代次数达到阈值，则转入M步。
n_jobs：默认为 None，CPU 并行数。若设置为 -1 的时候，则用所有 CPU 的内核运行程序。
verbose：日志冗长度，int类型。默认为0。就是不输出训练过程，1的时候偶尔输出结果，大于1，对于每个子模型都输出。
random_state：随机数种子，推荐设置一个任意整数，同一个随机值，模型可以复现。

LDiA 与 LSA 相似属于无监督学习模型，常被用于情感分析与垃圾过滤等领域。下面例子将结合 LDiA 与 LDA 模型的特点，先将信息进行主题转换，把 4000 个短信转换成200个主题，再进行信息分类。
还是以上面的科技类文本和娱乐类文本作为例子，先进行 TF-IDF 向量转换，再经过 LDiA 主题转换，最后使用 LDA 进行训练测试。

 1 # 科技、娱乐的两个文本路径
 2 paths=['C://Users/Leslie/Desktop/toutiao/news_finance.txt',
 3       'C://Users/Leslie/Desktop/toutiao/news_entertainment.txt']
 4 # 科技类信息标记为0，娱乐类信息标记为1
 5 result = []
 6 
 7 # 利用 jieba 转换命令格式
 8 def getWords():
 9     data = []
10     type = 0
11     # 获取路径中的两类文件
12     for path in paths:
13         file=open(path,'r',1024,'utf-8').read()
14         #分行读取,为了避免训练时间过长，只获取 4000 行数据
15         sentences=np.array(file.split('\n'))[2000:4000]
16         # jieba 分词，记录分类结果
17         for sentence in sentences:
18             data.append(jieba.lcut(sentence))
19             result.append(type)
20         type+=1
21     # 转换中文分词格式
22     words=[' '.join(word) for word in data]
23     return words
24 
25 # 训练 TF-IDF 向量
26 def getLdiaVector():
27     tfidf = TfidfVectorizer()
28     # 获取分词
29     words=getWords()
30     # 训练模型，返回 TF-IDF 向量
31     vector=tfidf.fit_transform(words)
32     # 训练 LDiA 模型，转换为 200个主题
33     ldia=LDiA(n_components=200,doc_topic_prior=2e-3,topic_word_prior=1e-3,random_state=42)
34     return ldia.fit_transform(vector)
35 
36 def ldaTest():
37     # 把 TF-IDF 向量切分为训练数据与测试数据
38     X_train,X_test,y_train,y_test=train_test_split(getLdiaVector(),result,random_state=22)
39     # 由于只是二分类，n_components 为 1 即可
40     lda=LDA(n_components=1)
41     # 训练模型
42     lda.fit(X_train,y_train)
43     # 输出准确率
44     y_model=lda.predict(X_test)
45     print('准确率为：{0}'.format(accuracy_score(y_test,y_model)))
46 
47 if __name__=='__main__':
48     ldaTest()

运行结果

虽然准确率只有 87%，远远不如直接使用 LDA 模型，但 LDiA 模型依然可以帮助用户从一个小型的训练集中泛化出模型，处理不同词的组合。

六、词嵌入的应用

至今为止，文章的代码都是使用 sk-learn 机器学习作为基础的，其实自然语言处理在 Tensonflow 深度学习中应用更广。下面将从基础知识入手，介绍 NLP 在深度学习的应用。

6.1 词嵌入原理

在机器学习中会利用 TF-IDF 等向量进行计算，而在Tensorflow 中常用词嵌入的方式进行计算。获取词嵌入的方式有两种，一种是通过词向量进行模型训练学习得来。另一种通过预训练模型把预先计算好词嵌入，然后将其加入模型中，也称为预训练词嵌入。常用的预训练词嵌入有 Word2doc、GloVe、Doc2vec 等。

Tensorflow 中准备 Embedding 层进行词嵌入，相比起传统的 one-hot 编码，它提供了低维度高密集型的词向量，其主要参数如下，其中最常用到的是 input_dim，output_dim，input_length 这3个参数，input_dim 是代表最大可插入的分词个数据，output_dim 是代表对分词特征分析的维度，这个参数需要根据分词数量而定，input_length 是限制单个测试对象的最大分词数量，若单个测试对象超出此单词数系统将会自动截取。

 1 @keras_export('keras.layers.Embedding')
 2 class Embedding(Layer):
 3     def __init__(self,
 4                input_dim,
 5                output_dim,
 6                embeddings_initializer='uniform',
 7                embeddings_regularizer=None,
 8                activity_regularizer=None,
 9                embeddings_constraint=None,
10                mask_zero=False,
11                input_length=None,
12                **kwargs):

参数说明：

input_dim：int 类型，大或等于0 的整数，代表作为特征的分词个数
output_dim：int 类型，大于0的整数，代表全连接嵌入的维度
embeddings_initializer: 嵌入矩阵的初始化方法，为预定义初始化方法名的字符串，或用于初始化权重的初始化器。可参考keras.initializers
embeddings_regularizer: 嵌入矩阵的正则项，为Regularizer对象
embeddings_constraint: 嵌入矩阵的约束项，为Constraints对象
mask_zero：bool 类型，默认为 False，用于确定是否将输入中的‘0’看作是应该被忽略的‘填充’（padding）值，该参数在使用递归层处理变长输入时有用。设置为True的话，模型中后续的层必须都支持masking，否则会抛出异常。如果该值为True，则下标0在字典中不可用，input_dim应设置为|vocabulary| + 2。
input_length：int 类型，默认为 None，限制每个插入对象最大单词数量。每行数据不足此数量会自动加入0 作为补充，超过此数据会截断后面的值。如果要在该层后接Flatten层，然后接Dense层，则必须指定该参数，否则Dense层的输出维度无法自动推断。

要使用 Embedding 层首先要对数据进行一下转换，例如上面例子的中文分词原来为下面格式

现在需要把文本转换为编码的格式，然后才能作为 Embedding 的输入数据

下面的例子继续使用科技、娱乐两类文档作为测试数据。先利用 jieba 作分词处理，然后调用 getEncode 方法进行自编码，把中文单词字符串转换成数字编码，再建立 Model 使用 Embedding 嵌入词进行测试。注意通过词嵌入后需要进行 Flatten 拉直后再进行计算。

在此例子中使用了 10000 个单词，由于是短文本，所以把 input_length设置为 10 个单词，而且只通过一个 Dense 层，准确率已经达到 90 % 以上。

 1 # 科技、娱乐的两个文本路径
 2 paths=['C://Users/Leslie/Desktop/toutiao/news_finance.txt',
 3        'C://Users/Leslie/Desktop/toutiao/news_entertainment.txt']
 4 # 科技类信息标记为0，娱乐类信息标记为1
 5 result = []
 6 # 最大单词数
 7 max_features=10000
 8 # 单个语句最大的词数量限制
 9 maxlen=10
10 
11 # 利用 jieba 转换命令格式
12 def getWords():
13     data = []
14     type = 0
15     # 获取路径中的两类文件
16     for path in paths:
17         file=open(path,'r',1024,'utf-8').read()
18         #分行读取,读取前 5000 行数据
19         sentences=np.array(file.split('\n'))[:5000]
20         # jieba 分词，记录分类结果
21         for sentence in sentences:
22             data.append(jieba.lcut(sentence))
23             result.append(type)
24         type+=1
25     return data
26 
27 # 自编码
28 def getEncode():
29     # 获取所有分词
30     sentences=getWords()
31     encode=list()
32     words= {}
33     index=0
34     # 循环所有句子
35     for sentence in sentences:
36         array = []
37         # 把分词转换成编码
38         for key in sentence:
39             if key not in words:
40                 words[key]=index
41                 index+=1
42             array.append(words[key])
43         # 记录每个句子的编码
44         encode.append(array)
45     # 返回自编码
46     return encode
47 
48 #  Model
49 def getModel():
50     model=Sequential()
51     model.add(Embedding(max_features,20,input_length=maxlen))
52     model.add(Flatten())
53     model.add(Dense(1,activation='sigmoid'))
54     model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['acc'])
55     model.summary()
56     return model
57 
58 def test():
59     model=getModel()
60     # 获取句子的编码
61     encodes=getEncode()
62     X_train,X_test,y_train,y_test=train_test_split(encodes,np.array(result),random_state=22)
63     X_train=preprocessing.sequence.pad_sequences(X_train,maxlen=maxlen)
64     X_test=preprocessing.sequence.pad_sequences(X_test,maxlen=maxlen)
65     # 输出准确率
66     history=model.fit(X_train,y_train,epochs=20,batch_size=500)
67     print(history)
68     model.fit(X_test,y_test)
69 
70 if __name__=='__main__':
71     test()

运行结果

上面例子中的词嵌入都是通过词频统计计算出来了，而了 21 世纪初 Bengio 等人提出一种新算法 NNLM（Nerual Network Language Model），就是通过无监督学习的方式预先计算出一个低维词向量，然后把向量直接加载 Embedding 层，这样就可以大大减小的模型的训练时间与语料搜集的难度。最常见的预训练词嵌入有 Word2vec 和 GloVe。

6.2 Word2vec 原理与应用

Word2vec 同 Google 的 Tomas Mikolov 于 2013 年研发，它是通过无监督学习训练而成，因此训练数据不需要人工组织、结构化和标注，这对于 NLP 来说可以说是非常完美。Word2vec 与其他词向量相似，以向量来衡量词语之间的相似性以及相邻的词汇是否相识，这是基于语言学的“距离相似性” 原理。“距离相似性” 可以用词向量的几何关系可以代表这些词的关系，用两个词之前的距离长短来衡量词之间的关系。如果把词向量的多维关系转化为二维映射或者会更容易理解，如下图 dog 、cat、rabbit 的相对更为接近，所以被是认为有一定的关系。

6.2.1 Word2vec 模型

在 gensim 库中，包含了最常用的 gensim.models.word2vec.Word2Vec 模型。在使用 Word2vec 模型前，首先要对模型进行预训练，由于各国有不同的文化差异，所以需要准备不同的语料库，词料库信息越全面，训练出来的模型准确性就会越高。

1 class Word2Vec(utils.SaveLoad):
2     def __init__(
3             self, sentences=None, corpus_file=None, vector_size=100, alpha=0.025, window=5, min_count=5,
4             max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
5             sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=hash, epochs=5, null_word=0,
6             trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH,
7             compute_loss=False, callbacks=(),comment=None, max_final_vocab=None, shrink_windows=True,
8         )

参数说明

sentences： iterable 或 optional 默认为 None ，以此参数导入要训练的语料，它是一个可迭代对象。由于语料库往往比较大，导入时建议使用 Text8Corpus 、LineSentence
corpus_file: str 类型，可以直接输入 LineSentence 文件路径来导入要训练的语料，以此参数代替 sentences 可以提升读入效率。sentences 和 corpus_file 必需填入一个，否则系统会报错
vector_size：int 类型，默认值为 100，表示训练后输出向量的维度
alpha：float类型，默认值为 0.025，表示初始学习率
window：int 类型，默认为 5，表示句子中当前和预测单词之间的最大距离，取词窗口大小
min_count：int 类型，默认为 5 ，表示文档中总频率低于此值的单词会被忽略，如果文档总词数低于此值系统将会被错
max_vocab_size：int 类型，默认为 None ，表示构建词汇表最大数，词汇大于这个数按照频率排序，去除频率低的词汇
sample：float 类型，默认为 1e-3 ，表示高频词进行随机下采样的阈值，范围是(0, 1e-5)
seed ：int 类型，默认为1 ，向量初始化的随机数种子
workers：int 类型，默认为3，同时运行的的 CPU 数
min_alpha：float 类型，默认为 0.0001，随着学习进行，学习率线性下降到这个最小数
sg ：int 类型，默认为 0，训练时算法选择 0 为 skip-gram, 1 为 CBOW
hs : int 类型，默认为 0，当 hs为 0 并且 negative 参数不为零j时，用负采样，为一时使用 softmax
negative：int 类型，默认为 5，使用负采样，大于 0 是使用负采样，负数值就会进行增加噪音词
ns_exponent：float 类型，默认为 0.75 ，表示负采样指数，确定负采样抽样形式：1.0：完全按比例抽，0.0 对所有词均等采样，负值对低频词更多的采样。
cbow_mean：int 类型，默认为 1，用于选择 CBOW 的计算方式。 0 代表使用上下文单词向量的总和，1 表示使用均值；只有使用 CBOW 算法时适用，skip-gram 时忽略此参数
hashfxn：表达式函数，默认为 hash 希函数，用于随机初始化权重，以提高训练的可重复性。
epoch ：int 类型，默认为 5 ，代表迭代次数
null_word: 默认为 0 空填充数据
trim_rule：表达式函数，默认为 None ，代表词汇修剪规则，指定某些词语是否应保留在词汇表中，默认是词频小于 min_count 则丢弃，可以是自己定义规则
sorted_vocab ：int 类型，默认为1 ，表示排序规则，1 代表按照降序排列，0 表示不排序；实现方法：gensim.models.word2vec.Word2VecVocab.sort_vocab()
batch_words：int 类型，默认为 10000 ，表示每批次最大的词数量，大于10000 cython 会进行截断
compute_loss：bool 类型，默认为 False，是否保存损失函数值，False 为不保存，True 就会保存
callbacks : 表示式函数，默认为（），表示在训练期间的特定阶段执行的回调序列 gensim.models.callbacks.CallbackAny2Vec
max_final_vocab：默认为None 通过自动选择匹配的 min_count 将词汇限制为目标词汇大小,如果 min_count 有参数就用给定的数值
shrink_window: bool 类型，默认为 True，4.1 版本新参数，若为 True，始终在窗口最左侧 [1，‘window’] 作为参数对上下文单词的距离进行位置权重计算，若为 Flase 则以中间项为标准进行计算。

训练 Word2vec 训练前先要做好准备，在 https://dumps.wikimedia.org/zhwiki/latest/ 网上可以找到最新的中文语料库，可以根据需求下载。由于下载的是 *.bz2 的压缩文件，而包含简体/繁体多种字型。所以读取时首先利用 WikiCorpu 要对文件进行解压，由于中文单词与国外有所区别，所以完成解压后，需要利用 jieba 进行分词处理，处理期间可通过 zhconv 把繁体字转换成简体字，完成转换后保存数据。
格式转换后可开始对 Word2Vec 模型进行预训练，由于数据量通常比较大，建议完成预训练后使用 Word2Vec.save (path) 方法保存模型，方便下次直接使用 Word2Vec.load(path) 重新加载。路径最好通过 os.path 生成，直接写入绝对路径容易报错。

 1 # 定议下载后压缩文件的路径，解压转换为简体的新文本路径
 2 wikipath = 'E://Tools/words/word2vec/zhwiki-latest-pages-articles.xml.bz2'
 3 filepath = 'E://Tools/words/word2vec/wiki.simple.txt'
 4 modelpath = 'E://Python_Projects/ANN/venv/word2ver_wiki_cn.model'
 5 
 6 if __name__=='__main__':
 7     convert()
 8     saveModel()
 9 
10 def saveModel():
11     # 通过 os.path 获取路径避免引起LineSentence路径错误
12     sentencesPath = os.path.abspath(filepath)
13     modelPath = os.path.abspath(modelpath)
14     # 生成逐行读取对象 LineSentence
15     sentences = LineSentence(sentencesPath)
16     # 建议 word2vec 对象进行学习
17     model = Word2Vec(sentences, window=8, min_count=5, workers=10)
18     # 保存模型
19     model.save(modelPath)
20 
21 def convert():
22     # 定义写入文件对象
23     write=open(filepath,'w',10240,'utf-8')
24     # 读取 bz2 压缩文件
25     wiki = WikiCorpus(wikipath)
26     # 分行读取
27     for sentences in wiki.get_texts():
28         data=''
29         # 分句读取
30         for sentence in sentences:
31             # 把繁体字转换为简体字
32             simpleSentence=zhconv.convert(sentence,'zh-cn')
33             # 通过 jieba 进行分词
34             for word in jieba.lcut(simpleSentence):
35                 data+=word+' '
36         # 换行
37         data+='\n'
38         # 写入文件
39         write.write(data)

训练 Word2vec 有两种方法 Skip-gram 方法和 CBOW（continuous bag-of-words）连续词袋，可以通过 sg 参数选择算法，0 为 skip-gram, 1 为 CBOW，默认使用 skip- gram

Skip-gram 算法是通过输入单词预测周边的词

CBOW 算法则是基于邻近的词预测目标词

6.2.2 KeyedVectors 词向量的常用方法

完成 Word2Vec 模型的预训练后，可以通过 Word2Vec.load(path) 重新加载训练好的模型，通过 Word2Vec.wv 可获取训练后的词向量对象 KeyedVectors。
KeyedVectors 词向量对象有下面几种常用的方法

6.2.2.1 获取 keyedVectors 向量值

通过 wv.vectors 可以获取模型的全局向量，通过 wv [ '向量名‘ ] 可以获取对应的向量，由于 vector_size 默认维度是100，所以每个向量也是一个 1 * 100 的数组。

1 modelPath=os.path.abspath('E://Python_Projects/ANN/venv/word2ver_wiki_cn.model')
2 model=Word2Vec.load(modelPath)
3 print( model.wv[ '朱元璋' ])

运行结果

若要进行组合向量查询，可直接通过向量叠加完成，例如若要查询 “唐朝的名诗及其作者” 等可以通过下面的等式完成

vector= wv[‘唐朝’]+wv[‘诗人‘]+wv[’作品’]

若发现结果中不仅包含有诗人和作品，还有其他朝代等信息，即可通过减法排除

vector= wv[‘唐朝’]+wv[‘诗人‘]+wv[’作品’]-wv[‘朝代’]

6.2.2.2 向量相邻词 most_similar

方法 wv. most_similar( positive=None, negative=None, topn=10）可根据给定的向量查询其相邻的词，其中 positive 是代表捕捉相关的向量词组合，topn是默认返回前10个词，negative 是代表要排除的向量词。从例子中可以看，以 “唐朝” 查询到的大多都是不同的朝代。但排除 “朝代”关系后，显示的变成唐朝人物 “罗弘信” 等，地区 “魏州” 等信息。选择了“唐朝”和 ”皇帝“ 再排除 “朝代” 信息后，还有会有 “唐玄宗”，“唐高宗”，“武则天” 等皇帝信息。

 1     modelPath=os.path.abspath('E://Python_Projects/ANN/venv/word2ver_wiki_cn.model')
 2     model=Word2Vec.load(modelPath)
 3 
 4     list0=model.wv.most_similar(positive=['唐朝'],topn=10)
 5     print(list0)
 6     list1=model.wv.most_similar(positive=['唐朝'],negative=['朝代'],topn=10)
 7     print(list1)
 8     list2=model.wv.most_similar(positive=['唐朝','皇帝'],topn=10)
 9     print(list2)

运行结果

6.2.2.3 检测不相关词 doesnt_match

通过 wv.doesnt_match(words) 可监测多个词组合中不相关的词，例如通过 wv.doesnt_match([‘唐朝’,‘李世民’,‘诗词’,‘计算机’])，系统会测试出计算机

6.2.2.4 余弦相似度计算 most_similar

通过 wv.most_similarity(w1,w2) 可以计算出给定两个词之间的余弦相似充，例如通过 wv.similarity(‘唐太宗’,‘李世民’)，计算出的相邻度为 0.78733486

6.2.2.5 词频查询 expandos

在 gensim 4.0 以上版本，系统已用 wv.expandos 代替 wv. vocab，可以通过此属性可查询每个分词的数量等信息

6.2.3 Word2Vec 在 Embedding 层的应用

在模型的 Embedding 层中，可以使用预训练的 word2vec 使用提升模型的准确性。通过 https://www.cluebenchmarks.com/ 网站下载分类测试数据，里面有 16 大类的今日头条APP里面的文档。以 paths 数组记录不同类型的文本路径，利用 jieba 进行分词处理，然后调用 getWord（）把分词进行编码处理，处理后的分词及编码记录在 dict 全局变量 words 中。再通过 getEmbedding() 方法，把预训练后的分量加入入 Embedding 层。把该层的 trainable 设置为 False ，让训练时数据不会影响 word2vec 的向量值。最后进行模型测试，可以看到简单的三层模型测试数据准确率可达到 80% 以上，已经相当不错了。

 1 # 科技、娱乐、文学等16类文本路径
 2 paths=['C://Users/Leslie/Desktop/toutiao/news_finance.txt',
 3        'C://Users/Leslie/Desktop/toutiao/news_entertainment.txt',
 4        'C://Users/Leslie/Desktop/toutiao/news_culture.txt'，
 5         ..........]
 6 # 记录类型标记 0，1，2，3...
 7 result = []
 8 # 记录分词与其对应编码
 9 words = {}
10 # 定义 maxlen 超过100个截取
11 maxlen=100
12 # 定义向量主题数
13 vector_size=100
14 
15 # 利用 jieba 转换命令格式
16 def getWords():
17     data = []
18     type = 0
19     # 获取路径中的16类文件
20     for path in paths:
21         file=open(path,'r',1024,'utf-8').read()
22         #分行读取
23         sentences=np.array(file.split('\n'))[:5000]
24         # jieba 分词，记录分类结果
25         for sentence in sentences:
26             data.append(jieba.lcut(sentence))
27             result.append(type)
28         type+=1
29     return data
30 
31 # 自编码
32 def getEncode():
33     # 获取所有分词
34     sentences=getWords()
35     encode=list()
36     index=0
37     # 循环所有句子
38     for sentence in sentences:
39         array = []
40         # 把分词转换成编码
41         for key in sentence:
42             if key not in words:
43                 words[key]=index
44                 index+=1
45             array.append(words[key])
46         # 记录每个句子的编码
47         encode.append(array)
48     # 返回自编码
49     return encode
50 
51 # 获取word2vec中对应的向量生成 Embedding 数组
52 def getEmbedding():
53     # 加载训练好的 word2vec 模型
54     modelPath=os.path.abspath('E://Python_Projects/ANN/venv/word2ver_wiki_cn.model')
55     model=Word2Vec.load(modelPath)
56     # 向量初始化
57     embedding=np.zeros((len(words), vector_size))
58     # 若word2vec有此分词则加载此向量，若没有则设置为0
59     for key,value in words.items():
60         if model.wv.__contains__(key):
61             embedding[value]=model.wv.get_vector(key)
62     return embedding
63 
64 #  生成Model
65 def getModel():
66     model=Sequential()
67     model.add(Embedding(len(words),vector_size,input_length=maxlen))
68     model.add(Flatten())
69     model.add(Dense(500,activation='relu'))
70     model.add(Dense(100,activation='relu'))
71     model.add(Dense(16,activation='sigmoid'))
72     model.compile(optimizer=optimizers.Adam(0.003),
73                   loss=losses.sparse_categorical_crossentropy,
74                   metrics=['acc'])
75     model.summary()
76     return model
77 
78 def test():
79     # 获取句子的分词编码
80     encodes=getEncode()
81     # 获取模型
82     model=getModel()
83     # 在 Embedding 层加入预训练好的 word2vec 模型
84     model.layers[0].set_weights([getEmbedding()])
85     # 训练时不修改 word2vec 模型中的向量
86     model.layers[0].trainable=False
87     # 分拆训练数据与测试数据
88     X_train,X_test,y_train,y_test=train_test_split(encodes,np.array(result),random_state=60)
89     X_train=preprocessing.sequence.pad_sequences(X_train,maxlen=maxlen)
90     X_test=preprocessing.sequence.pad_sequences(X_test,maxlen=maxlen)
91     # 输出准确率
92     callback= keras.callbacks.TensorBoard(log_dir='logs')
93     history=model.fit(X_train,y_train,epochs=20,batch_size=500,callbacks=callback)
94     print(history)
95     model.fit(X_test,y_test)
96 
97 if __name__=='__main__':
98     test()

运行结果

Tensorborad 准确率

6.3 GloVe 词嵌入

除了 Word2Vec 库，另一个常用的库就是 GloVe（Global Vectors for Word Representation），它是由斯坦福大学研究人员在 2014 年开发的。这种嵌入方法基于全词频统计的方式对分词进行了全局矩阵因式分解，它可以直接把单词表达成实数向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。

GloVe 库的应用与 Word2Vec 类似，可以直接通过网络下载语料库，对 GloVe 进行预训练，然后保存模型，再把从 Embedding 层注入预训练好的向量，对数量进行测试。若要在 window 10 或以上版本中使用 Glove，建议使用 glove_python 包，首先必须先安装 GCC （可通过 Homebrew 下载对应版本）和 Visual Studio Build Tool 14 以上版本，然后通过 pip install glove_python 执行安装（也可链接 GitHub：glove_python-0.1.0-cp37-cp37m-win_amd64.zip 直接下载安装包）。

GloVe 常用方法如下

 1 #准备数据集
 2 sentense = [['摘要','人工智能','AI','开发'],['我们','是','机器人'],......]
 3 corpus_model = Corpus()
 4 corpus_model.fit(sentense, window=10)
 5 #训练
 6 glove = Glove(no_components=100, learning_rate=0.05)
 7 glove.fit(corpus_model.matrix, epochs=10,
 8           no_threads=1, verbose=True)
 9 glove.add_dictionary(corpus_model.dictionary)
10 #模型保存
11 glove.save('glove.model')
12 glove = Glove.load('glove.model')
13 #语料保存
14 corpus_model.save('corpus.model')
15 corpus_model = Corpus.load('corpus.model')

完成训练后，使用 Glove.load() 就可以重新加载，然后把向量加载到 Embedding 层，使用方式与 Word2Vec 非常类似，在此就不再做重复介绍。
利用 gensim.scripts.glove2word2vec 还可以把 glove 向量转化为 Word2Vec 向量使用

 1 # 用于转换并加载glove预训练词向量
 2 from gensim.test.utils import datapath, get_tmpfile
 3 from gensim.models import KeyedVectors
 4 # 将glove转换为word2vec
 5 from gensim.scripts.glove2word2vec import glove2word2vec
 6 
 7 path='文件夹路径'
 8 glove_file=datapath(os.path.join(path, "glove.txt"))
 9 word2vec_file=get_tmpfile(os.path.join(path,"word2vec.txt"))
10 glove2word2vec(glove_file, word2vec_file)

本章总结

本文介绍了 NLP 自然语言处理的理论与实现方法，以 One-Hot、TF-IDF、PageRank 为基础的算法，讲述 LDA、LDiA、LSA 等语义分析的原理。介绍 Jieba 分词工具的中文文本中的应用，以及Word2Vec、GloVe 等预训练模型。
其实本文讲述的 NLP 在 Embedding 中的应用只是冰山一角，自然语言处理在循环神经网络 RNN 中才能真正发挥其优势。

你可能感兴趣的:(自然语言处理,easyui,人工智能,chatgpt,机器学习,计算机视觉,ai)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。