数据挖掘概念与技术_文本挖掘

1、文本检索的基本度量—— 准确率和召回率 http://fuhao-987.iteye.com/blog/930140
2、文本检索方法—— 向量空间模型 http://fuhao-987.iteye.com/blog/930988
3、文本索引技术
   (1)倒排索引
   一种索引结构,维持两个散列索引表document_table(文档表)和term_table(词表)。
   documnet_table:两个字段doc_id和posting_list,posting_list是出现在文档中的词(或指向词的指针)的列表,按某种相关度量排序。
   term_table:term_id和posting_list,posting_list是出现该词的文档标识符的列表。
   (2)特征文件
   是一个存储数据库中每个文档的特征记录的文件。
4、文本维度归约
   (1)潜在语义标引(LSI)
   是最为流行的一种文档维度归约算法。
   文档矩阵为A(m*n),m为文档矩阵中包含的词的数目,n为文档的数目。A T*A表示文档-文档间的关联矩阵, A*A T表示词语-词语间的关联矩阵.
   对A作奇异值分解(SVD),A=U∑V T,选取适当的K值,将∑中最大的K个奇异值及其相应行、列保存,其他的奇异值及其相应行、列删除;再取U,V最前面的K个列和K个行向量,分别构建Uk和Vk,由此得到Ak=Uk∑kVk T
   k的选取,在矩阵SVD分解中,A=U∑V T。其中对角矩阵∑为
∑=diag(σ_1,σ_2,σ_3,…,σ_r,0…0),满足σ_1≥σ_2≥⋯≥σ_r,可以按照如下规则选取降维因子K,令K满足
(∑_(i=1)^k▒σ_i )/(∑_(i=1)^r▒σ_i )≥θ
包含原始矩阵信息的阈值θ,可选取为:40%,50%,70%,80%。
    更新策略:对已经进行了奇异值分解的词频矩阵,若有新的文档或词项加入,主要有两种方法进行SVD更新:重新计算SVD或者直接加入。直接加入是一种简单的更新策略。
5、文本挖掘方法
   (1)基于关键词的关联分析
   (2)文本分类
   一般过程如下:取一个预分类的文档集作为训练集。然后,分析训练集,以导出分类模式。通常,需要用一个检验过程对该分类模式求精。
    k最近邻分类器、贝叶斯分类、基于关联的分类
   (3)文本聚类,混合模型聚类方法,LSI,光谱聚类方法

你可能感兴趣的:(数据结构,算法,数据挖掘,Blog,ITeye)