基于LDA主题模型的短文本分类

        VSM(向量空间模型)是信息检索领域最为经典的分析模型之一,采用VSM对短文本进行建模,即将每一篇短文本表示为向量的形式,用TF-TDF表示向量的值。给出一些符号定义:短文本集SD= {sd1,sd2,...,sdM},M为短文本总数,词表V = {V1,V2,...,VN},N为词汇数。一篇短文本sdi∈SD的向量表示为V(i)= (w(i)1,w(i)2,...,w(i)N),其中w(i)k为词vk∈V在sdi中的权重,通常用TF-IDF来表示

        其中,tfki表示vk在sdi中出现的次数,dfk表示SD中含有vk的短文本总数。然后可采用余弦距离计算两个向量的值,用余弦距离表示两篇文本的相似度,值越大认为两篇文本越相似,计算公式如下:

       由于短文本的长度短、表意不明确性和特征稀疏性等问题,使用VSM不能完全建模短文本中存在的问题。针对VSM存在数据空间稀疏、不能有效挖掘语义特征等问题,将LDA模型应用到文本相似度计算中。LDA模型将VSM的文本向量表示映射到主题空间向量表示,不仅能对数据有效降维,还能有效解决一词多义和一义多词的问题。

        LDA模型的基本思想是将文档描述为主题概率分布并进一步将主题描述为词项概率分布。LDA模型是一个3层Bayes结构,其LDA图模型下图所示。

基于LDA主题模型的短文本分类_第1张图片

LDA模型生成过程可描述如下:

(1)文档d中词项总数Nd服从泊松分布,其参数为ξ:Nd~Poisson(ξ)

(2)对每篇文档d∈{1,2,...,|D|},按概率生成其主题分布:θ→d~ Dirichlet(α→);

(3)对每个主题z∈{1,2,...,K},按概率生成其词项分布:φ→k~ Dirichlet(β→);

(4)对文档d中每个词wn的生成过程,其中n∈{1,2,...,Nd},有:

         1)根据主题分布θ→d生成文档d词项wn主题:zd,n~Multionmial(θ→d);

        2)根 据 词 项 分 布φzd,n→生 成 所 选 主 题 词 项:wd,n~Multionmial(φ→zd,n)。


基于LDA主题模型的短文本分类算法

其具体步骤总结如下:

输入:LDA模型语料库、KNN分类语料库

输出:待分类文本的分类结果

(1)通过文本语料库训练LDA模型并推断KNN训练和测试文本集的主题分布;

(2)选取特征词并修改主题分布;

(3)根据式

基于LDA主题模型的短文本分类_第2张图片

计算主题相似度;

(4)采用KNN分类并根据下式进行类别判断


基于LDA主题模型的短文本分类_第3张图片


引自:杨萌萌等,基于LDA主题模型的短文本分类,计算机工程与设计,2016

你可能感兴趣的:(基于LDA主题模型的短文本分类)