plsa学习

学习plsa之前应该掌握lsa,plsa是在lsa基础上更为先进的方法,解决了同义词和多义词的问题,利用强化的期望最低散发来训练隐含类。 

LSA 潜在语义分析是一种使用数学和统计的方法对文本中的词语进行抽取,推断他们之间的语义关系并建立语义索引,将文档组织成语义空间结构的方法。 

lsa是一种处理机器学习难于区别词法与语义发那个发。主要思想是映射高维向量到潜在语义空间,使其降维。目标就是要寻找到能够解决实体间词法和语义关系的数据映射。(奇异值分解:线性代数中做一种重要的矩阵分解)通过奇异值分解将特征项和文档映射到同一个语义空间,对文档矩阵进行计算,提取K个最大的奇异值,已解决统一仅以和多疑想象,近似表示原文档。 具体算法:N篇的document,D={d_1, … ,d_N} M个words,W={w_1, … ,w_M} K个潜在类Z={z_1, … ,z_K} 然后建立一个N*M的项——文档矩阵,统计频率(tf*idf)。矩阵A中的每一项分别对应了DiWj出现的频率。接着,对这个矩阵做奇异值分解(A(n*m) = U(n*n) E(n*m) V(m*m));保留奇异值矩阵E最大的K个特征值(奇异值是特征值的非负平方根),其他的置为零;得到近似矩阵,同时也可以得到共生矩阵A的近似。 PLSA 首先要了解em算法。 最大期望算法是在概率模型中找参数最大似然估计的算法,利用上一次的后验最为下次试验的先验。广泛用于处理缺损数据。共两个步骤,e:将隐藏变量像能够观测到的一样包含在内从而计算最大似然的期望值。m:最大化在e上找到的最大似然的期望值从而计算参数的最大似然估计。(其实没懂) plsa的建模--层面模型层面模型就是关联于潜在类Z的共现表的潜在可变模型,在层面模型中,文档被视为潜在的K个层面的混合,每个层面就是word对于z的概率分布 plsa的建模--数据的共现对于每一组(w,d)都使之与潜在变量z相关联 plsa的建模--预测words 已经有了文档的概率,首先要计算潜在类根据条件概率d,根据条件概率z生成单词w 自我理解:首先文本文档与词语的关系要有。引进一个潜在类的语义层,也就是一个中间矩阵。通过它先对词进行分类,然后对文章进行分类。 总结:看到这里,我想大概的意思我应该了解了一些,但是至于如何具体实现,能力有限,不知道该如何做。。

你可能感兴趣的:(算法,文档)