目的:从文档中有效的自动抽取语义主题。
处理原始的、非结构化的文本。
gensim
中的算法有LSA
、LDA
、RP
、TF-IDF
、word2vec
,通过在一个训练文档语料库中,检查词汇统计联合出现模式,发掘文档语义结构,这些算法属于 非监督 学习,无需人工输入,自己只需要提供一个语料库即可。
Gensim
中,Corpus
通常是一个可迭代的对象,每一次迭代返回一个用于表达文本对象的 稀疏向量。统计语言模型一般形式是给定已知的一组词,求解下一个词的条件概率。
统计语言模型的一般形式直观、准确,n元模型中假设在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近,距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。
1)没考虑距离更远的词语与当前词的关系,超出范围n的词被忽略了,但是这两者有可能有关系。
“华盛顿是美国的首都”是当前语句,隔了大于n个词的地方又出现了“北京是中国的首都”
在n元模型中“华盛顿”和“北京”是没有关系的,然而这两个句子却隐含了语法及语义关系,即”华盛顿“和“北京”都是名词,并且分别是美国和中国的首都。
2)忽略了词语之间的相似性,无法考虑词语的语法关系。
例如,语料中的“鱼在水中游”应该能够帮助我们产生“马在草原上跑”这样的句子,因为两个句子中“鱼”和“马”、“水”和“草原”、“游”和“跑”、“中”和“上”具有相同的语法特性。
通过学习训练语料获取词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减运算则是计算机在"遣词造句"。
最早的语言模型NNLM
,如今架构方面有CBOW
模型、Skip-gram
模型,在训练方面出现了Hierarchical Softmax算法、负采样算法(Negative Sampling)以及为了减小频繁词对结果准确性和训练速度的影响而引入的欠采样(Subsumpling)技术。
预处理:指的是将文档中原始的字符文本转换成
Gensim
模型所能理解的稀疏向量的过程。
Gensim
模型训练之前,需要将原生字符解析成 Gensim
能处理的稀疏向量的格式。word2vec两种形式:
CBOW
和Skip-gram
模型
词向量:具有良好的语义特性,表示词语特征的常用方式。
上下文决定当前词出现的概率。
在CBOW模型中,上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫CBOW(continuous bag-of-words model)模型。如在袋子中取词,取出数量足够的词就可以了,至于取出的先后顺序是无关紧要的。
使用单一的焦点词作为输入,经过训练后输出它的目标上下文。
Skip-gram表示“跳过某些符号”。
from gensim.models import Word2Vec
model = Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)
skip-gram
算法,对低频词敏感;默认sg=0为CBOW
算法。min_count
的单词背忽略,默认为5
。softmax
将被使用;默认hs=0且negative
不为0,则负采样将会被选择使用。model.save(file_name)
model = Word2Vec.load(file_name)
model.most_similar(positive=['woman', 'king'], negative=['man'])
#输出[('queen', 0.50882536), ...]
model.doesnt_match("breakfast cereal dinner lunch".split())
#输出'cereal'
model.similarity('woman', 'man')
#输出0.73723527
model['computer'] # raw numpy vector of a word
#输出array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)