Gensim提取语义主题

Gensim

目的:从文档中有效的自动抽取语义主题。
处理原始的、非结构化的文本。
gensim 中的算法有LSALDARPTF-IDFword2vec,通过在一个训练文档语料库中,检查词汇统计联合出现模式,发掘文档语义结构,这些算法属于 非监督 学习,无需人工输入,自己只需要提供一个语料库即可。

  • 语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加信息。在 Gensim 中,Corpus 通常是一个可迭代的对象,每一次迭代返回一个用于表达文本对象的 稀疏向量
  • 向量:由一组文本特征构成的列表。
  • 稀疏向量:通常可以忽略向量中多余的0元素。此时向量中的每一个元素是一个(key,value)的元组。
  • 模型:定义了两个向量空间的变换(从文本的一种向量表达变换为另一种向量表达)。

语言模型

统计语言模型

统计语言模型一般形式是给定已知的一组词,求解下一个词的条件概率。

统计语言模型的一般形式直观、准确,n元模型中假设在不改变词语在上下文中的顺序前提下,距离相近的词语关系越近,距离较远的关联度越远,当距离足够远时,词语之间则没有关联度。

1)没考虑距离更远的词语与当前词的关系,超出范围n的词被忽略了,但是这两者有可能有关系。

“华盛顿是美国的首都”是当前语句,隔了大于n个词的地方又出现了“北京是中国的首都”
在n元模型中“华盛顿”和“北京”是没有关系的,然而这两个句子却隐含了语法及语义关系,即”华盛顿“和“北京”都是名词,并且分别是美国和中国的首都。

2)忽略了词语之间的相似性,无法考虑词语的语法关系。

例如,语料中的“鱼在水中游”应该能够帮助我们产生“马在草原上跑”这样的句子,因为两个句子中“鱼”和“马”、“水”和“草原”、“游”和“跑”、“中”和“上”具有相同的语法特性。

神经网络概率语言模型

通过学习训练语料获取词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减运算则是计算机在"遣词造句"。

最早的语言模型NNLM,如今架构方面有CBOW模型、Skip-gram模型,在训练方面出现了Hierarchical Softmax算法、负采样算法(Negative Sampling)以及为了减小频繁词对结果准确性和训练速度的影响而引入的欠采样(Subsumpling)技术。

训练语料的预处理

预处理:指的是将文档中原始的字符文本转换成 Gensim 模型所能理解的稀疏向量的过程。

  1. 处理的原声语料是一堆文档的集合,每一篇文档又是原声字符的集合。
  2. Gensim 模型训练之前,需要将原生字符解析成 Gensim 能处理的稀疏向量的格式。
  3. 所以需要对原始的文本进行 分词、去除停用词 等操作,来得到文档的特征列表。

word2vec词向量训练

word2vec两种形式:CBOWSkip-gram 模型

词向量:具有良好的语义特性,表示词语特征的常用方式。

  • 词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。
  • 可以将词向量的每一维称为一个词语特征。
  • 向量的维度表示词表大小,绝大多数是0,只有一个维度是1,代表当前词。

CBOW

上下文决定当前词出现的概率。

在CBOW模型中,上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫CBOW(continuous bag-of-words model)模型。如在袋子中取词,取出数量足够的词就可以了,至于取出的先后顺序是无关紧要的。

Skip-gram

使用单一的焦点词作为输入,经过训练后输出它的目标上下文。

Skip-gram表示“跳过某些符号”。

word2vec的使用

训练模型的定义

from gensim.models import Word2Vec
model = Word2Vec(sentences, sg=1, size=100,  window=5,  min_count=5,  negative=3, sample=0.001, hs=1, workers=4)
  • sg:sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。
  • size:输出词向量的维数,值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。
  • window:句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。
  • min_count:对词进行过滤,频率小于 min_count 的单词背忽略,默认为5
  • sample:表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。
  • hs:hs=1表示层级softmax将被使用;默认hs=0且negative不为0,则负采样将会被选择使用。
  • works:控制训练的并行,此参数只有在安装了Cpython后才有效,否则只能使用单核。

训练模型的保存和加载

model.save(file_name)
model = Word2Vec.load(file_name)

模型的使用(词语相似度计算)

model.most_similar(positive=['woman', 'king'], negative=['man'])
#输出[('queen', 0.50882536), ...]
 
model.doesnt_match("breakfast cereal dinner lunch".split())
#输出'cereal'
 
model.similarity('woman', 'man')
#输出0.73723527
 
model['computer']  # raw numpy vector of a word
#输出array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

你可能感兴趣的:(Python)