人机文本分类特征构造——主题分布

上一篇博客是关于发现机器所写内容中语序调换的问题,这一篇博客主要讲如何发现文本内容中是否存在多个主题。对于模型的构建普遍使用的是gensim的LDA模型,而在这里我们使用了百度的开源工具Familia,下面将进行介绍~
##关于Familia
Familia 开源项目包含文档主题推断工具语义匹配计算工具以及基于工业级语料训练的三种主题模型Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用户以“拿来即用”的方式进行文本分类文本聚类个性化推荐等多种场景的调研和应用。其中已经训练好了四大模型:新闻主题模型网页主题模型小说主题模型微博主题模型
具体链接:https://github.com/baidu/Familia
##代码编译
下载整个项目之后,按如下步骤:

# 包含获取并安装第三方依赖的过程
sh build.sh 
# 模型下载
cd model
sh download_model.sh

##实验过程
该demo文件在终端下是能正常运行,不过在调用python接口时总会出现以下错误

若出现找不到libglog.so, libgflags.so等动态库错误,请添加third_party至环境变量的LD_LIBRARY_PATH中。

按照官方提示添加环境变量

export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH

错误依旧存在【希望解决了这个问题的朋友能分享下】,因此按照需求修改了其demo文件并在终端运行

#!/bin/bash
export LD_LIBRARY_PATH=../third_party/lib:$LD_LIBRARY_PATH

cd ../model
sh download_model.sh
cd ../python

python ./demo/lda_infer_demo.py ../model/news lda.conf 
# 模型可以按照需求修改

最后可以得到每个文档的主题分布情况
人机文本分类特征构造——主题分布_第1张图片

你可能感兴趣的:(特征工程)