中文jieba+LDA基本流程

唔 最近小白新学了点点中文文本处理来处理一个paper database,总结了一点点流程(超级入门,轻喷)

1 基本准备
所需处理的中文文本
用户词典 userdict
停用词词表 stopwords

2 可能用到的一些包
jieba -- 分词
gensim -- lda, dtm
matplotlib -- 画图
pyLDAvis -- lda 可视化
yellowbrick -- 随便找的一个可视化 来画一下dispersion plot

3 基本步骤

1)jieba分词

load userdict/stopwords
然后分词 可能用到正则 re
将结果写入out file中
然后可以用jieba自带的一些keyword analysis 进行一些小小的关键词计算

2)LDA主题模型/dtm

from gensim import corpora, models, similarities
然后根据需要导入ldamodel/ldaseqmodel
具体lda/dtm的实现代码网上都有,可以直接拿来用
这中间为了提高准确度可以用coherence model来确定topic的个数,网上有计算的代码可以直接拿来用

3)可视化
比较了一下这些可视化 感觉还是lda的比较靠谱一点,这里用pyLDAvis来可视化最后的结果,最后可以 save html
当然也可以用yellow brick。这个主要我自己用的时候用两个功能,一是 token frequency 的分布计算,二是dispersion plot 来看 target word在dtm文档中出现的这个分布情况。

具体代码可以去https://github.com/kimmy-sil/Python-beginning-practice/tree/master/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%A4%84%E7%90%86 这里看。

你可能感兴趣的:(中文jieba+LDA基本流程)