在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。
主题可以被定义为“语料库中具有相同词境的词的集合模式”,比如说,主题模型可以
LDA 模式是生成式模型,在这里,假设需要建模的数据为 X X ,标签信息为 Y Y 。
判别式模型:对 Y Y 的产生过程进行描述,对特征信息本身不建模。判别式模型有利于构建分类器或者回归分析生成式模型需要对 X X 和 Y Y 同时建模,更适合做无监督学习分析。
生成式模型:描述一个联合概率分布 P(X,Y) P ( X , Y ) 的分解过程,这个分解过程是虚拟的过程,真实的数据不是这么产生的,但是任何一个数据的产生过程可以在数学上等价为一个联合概率分布。
LDA 是一种矩阵分解技术,在向量空间中,任何语料(文档的集合)可以表示为文档(Document - Term,DT)矩阵。下面矩阵表达了一个语料库的组成:
. | W1 W 1 | W2 W 2 | … | Wm W m |
---|---|---|---|---|
D1 D 1 | 0 | 2 | … | 3 |
D2 D 2 | 1 | 4 | … | 0 |
... . . . | … | … | … | … |
Dn D n | 1 | 1 | … | 0 |
其中, N N 个文档 D1,D2,…,Dn D 1 , D 2 , … , D n 的组成语料库, M M 个词 W1,W2,…,Wm W 1 , W 2 , … , W m 组成词汇表。矩阵中的值表示了词 Wj W j 在文档 Di D i 中出现的频率,同时,LDA 将这个矩阵转换为两个低维度的矩阵, M1 M 1 和 M2 M 2 。
. | Z1 Z 1 | Z2 Z 2 | … | Zk Z k |
---|---|---|---|---|
θ1 θ 1 | 0 | 2 | … | 3 |
θ2 θ 2 | 1 | 4 | … | 0 |
... . . . | … | … | … | … |
θn θ n | 1 | 1 | … | 0 |
上面显示了 M1 M 1 矩阵的情况,它是一个 N∗K N ∗ K 大小的 document - topic 矩阵, N N 指文档的数量, K K 指主题的数量, M1 M 1 中, θi θ i 是一个长度为 k k 的向量,用于描述当前文档 θi θ i 在 k k 个主题上的分布情况, Z Z 表示具体的主题。
. | W1 W 1 | W2 W 2 | … | Wm W m |
---|---|---|---|---|
ϕ1 ϕ 1 | 0 | 2 | … | 3 |
ϕ2 ϕ 2 | 1 | 4 | … | 0 |
... . . . | … | … | … | … |
ϕk ϕ k | 1 | 1 | … | 0 |
上面显示了 M2 M 2 矩阵的情况,它是一个 K∗V K ∗ V 维的 topic - term矩阵, K K 指主题的数量, V V 指词汇表的大小。 M2 M 2 中每一行都是一个 ϕ ϕ 分布,也就是主题 ϕk ϕ k 在 m m 个词上的多项式分布情况,可以通过学习得到。
LDA 假设文档是由多个主题的混合来产生的,每个文档的生成过程如下:
这些主题基于词的概率分布来产生词,给定文档数据集,LDA 可以学习出,是哪些主题产生了这些文档。
对于文档生成过程,则有,首先对于文档 n n 中的每一个字,都先从文档矩阵 M1 M 1 中的 θi θ i 中产生一个下标,告诉我们现在要从主题矩阵 M2 M 2 中的哪一行 ϕm ϕ m 生成当前的字。
吉布斯采样 (Gibbs Sampling) 首先选取概率向量的一个维度,给定其他维度的变量值当前维度的值,不断收敛来输出待估计的参数。具体地
LDA 对于每个文档的每一个字都有一个主题下标。但从文档聚类的角度来说,LDA 没有一个文档统一的聚类标签,而是每个字都有一个聚类标签,这个就是主题。LDA 每个字都有可能属于不同的类别,每个文档都有可能属于不同的类别。在大量的迭代后,主题分布和字分布都比较稳定也比较好了,LDA 模型收敛。
α α :表示 document-topic 密度, α α 越高,文档包含的主题更多,反之包含的主题更少
β β :表示 topic-word 密度, β β 越高,主题包含的单词更多,反之包含的单词更少
主题数量:主题数量从语料中抽取得到,使用 Kullback Leibler Divergence Score 可以获取最好的主题数量。
主题词数:组成一个主题所需要的词的数量。这些词的数量通常根据需求得到,如果说需求是抽取特征或者关键词,那么主题词数比较少,如果是抽取概念或者论点,那么主题词数比较多。
迭代次数:使得 LDA 算法收敛的最大迭代次数
doc1 = "Sugar is bad to consume. My sister likes to have sugar, but not my father."
doc2 = "My father spends a lot of time driving my sister around to dance practice."
doc3 = "Doctors suggest that driving may cause increased stress and blood pressure."
doc4 = "Sometimes I feel pressure to perform well at school, but my father never seems to drive my sister to do better."
doc5 = "Health experts say that Sugar is not good for your lifestyle."
# 整合文档数据
doc_complete = [doc1, doc2, doc3, doc4, doc5]
数据清洗对于任何文本挖掘任务来说都非常重要,在这个任务中,移除标点符号,停用词和标准化语料库(Lemmatizer,对于英文,将词归元)。
from nltk import stopwords
from nltk.stem.wordnet import WordNetLemmatizer
import string
stop = set(stopwords.words('english'))
exclude = set(string.punctuation)
lemma = WordNetLemmatizer()
def clean(doc):
stop_free = " ".join([i for i in doc.lower().split() if i not in stop])
punc_free = ''.join(ch for ch in stop_free if ch not in exclude)
normalized = " ".join(lemma.lemmatize(word) for word in punc_free.split())
return normalized
doc_clean = [clean(doc).split() for doc in doc_complete]
语料是由所有的文档组成的,要运行数学模型,将语料转化为矩阵来表达是比较好的方式。LDA 模型在整个 DT 矩阵中寻找重复的词语模式。Python 提供了许多很好的库来进行文本挖掘任务,“genism” 是处理文本数据比较好的库。下面的代码掩饰如何转换语料为 Document - Term 矩阵:
import genism
from gensim import corpora
# 创建语料的词语词典,每个单独的词语都会被赋予一个索引
dictionary = corpora.Dictionary(doc_clean)
# 使用上面的词典,将转换文档列表(语料)变成 DT 矩阵
doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]
创建一个 LDA 对象,使用 DT 矩阵进行训练。训练需要上面的一些超参数,gensim 模块允许 LDA 模型从训练语料中进行估计,并且从新的文档中获得对主题分布的推断。
# 使用 gensim 来创建 LDA 模型对象
Lda = genism.models.ldamodel.LdaModel
# 在 DT 矩阵上运行和训练 LDA 模型
ldamodel = Lda(doc_term_matrix, num_topics=3, id2word = dictionary, passes=50)
# 输出结果
print(ldamodel.print_topics(num_topics=3, num_words=3))
[
'0.168*health + 0.083*sugar + 0.072*bad,
'0.061*consume + 0.050*drive + 0.050*sister,
'0.049*pressur + 0.049*father + 0.049*sister
]
每一行包含了主题词和主题词的权重,Topic 1 可以看作为“不良健康习惯”,Topic 3 可以看作 “家庭”。
主题模型的结果完全取决于特征在语料库中的表示,但是语料通常表示为比较稀疏的文档矩阵,因此减少矩阵的维度可以提升主题模型的结果。
根据频率来分布词,高频词更可能出现在结果中,低频词实际上是语料库中的弱特征,对于词频进行分析,可以决定什么频率的值应该被视为阈值。
比起频率特征,词性特征更关注于上下文的信息。主题模型尝试去映射相近的词作为主题,但是每个词在上下文上有可能重要性不同,比如说介词 “IN” 包含 “within”,“upon”, “except”,基数词 “CD” 包含:许多(many),若干(several),个把(a,few)等等,情态助动词 “MD” 包含 “may”,“must” 等等,这些词可能只是语言的支撑词,对实际意义影响不大,因此可以通过词性来消除这些词的影响。
为了得到主题中最重要的主题词,语料可以被分为固定大小的 batch,在这些 batch 上运行 LDA 模型会提供不同的结果,但是最佳的主题词会在这些 batch 上有交集。
比如说文本分类任务中,LDA 可以用来选择特征,因为训练数据中含有类别信息,可以在不同类别的结果中,删除相同的、比较常见的主题词,为主题类别提供更好的特征。
本文主要参考了[1],没有什么公式,用于对 LDA 有一个大概的了解,后面也会更深入 LDA 模型,可以一边运行上面的代码一边感受 LDA 的作用。
[1] https://www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python
[2] http://link.springer.com/chapter/10.1007%2F978-3-642-13657-3_43