分本分类与聚类 笔记

1.去掉HTML网页中的tag标记:采用哈工大 《基于行块分布函数的通用网页正文抽取算法》的部分代码

2.降维 特征抽取 通过计算文档频率(DF)降低特征维数,这是最简单的降低特征空间维数的方法。
3.information Gain (IG)反映的是该term 为整个分类带来的信息量
4.Mutual Information (MI)MI越大,term 和某一类C 共现的概率越大
5.Tf-idf :反映了某个词t对类别的区分能力。TFIDF 实际上是:TF * IDF。tf 指t在文档中的出现频率,idf(inverse Document frequency)指逆文本频率,其主要思想:如果包含t的文档数越少n越小,idf越大,则说明词条t具有良好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。
6:KNN在文本分类中的流程:
(1)向量空间模型(VSM),将文本表示称为向量的形式。VSM假设 文档中出现的词条相互独立,与出现的顺序无关,文档就表示为V=(w1,w2,w3,w4......),其中wi表示第i个特征项的权重,表示ti对文本分类的贡献程度。
(2)获取特征权重的计算方法:
             a. TF-IDF计算方法  
              b.  改进 TF-IDF只考虑了不同的特征项对分类的作用不同,没有考虑到同一特征出现在文本中的位置不同,应该赋予不同的权重
       C.  相似度计算
文本表示成向量,计算两个文本的相似度,可以转化为计算两个文本向量的夹角余弦值。给定文本di=(wi1,wi2,…win)
dj=(wj1,wj2,…wjn)
7.聚类 :将无标记的各个文本划分到聚类的各个子集中,无监督的发现新类别
a. 层次聚类 会聚和分裂
b 会聚层次聚类HAC: 每个实例先分成一类,然后根据相似度重复合并最相似的一类,直到聚成一类。合并的过程
称为层次聚类。
c.非层次聚类:首先确定设定的类别数K,随机选择K个种子进行初始聚类,迭代,将样例重新划分,直到样例所属的
类别不 再发生变化
d.Buckshot算法
层次聚类和K-均值
首先随机选择n1/2 大小的语料
在这些样例上运行HAC
利用HAC的结果做为K-均值的种子
该方法避免了不良种子的选取

f.文本聚类
HAC和 K-Means可以直接应用于文本中.
典型的使用归一化、基于TF/IDF权重的向量以及余弦相似度.
应用:
在检索阶段,加入同一类别的其他文本作为初始检索结果,提高召回率.
检索结果进行聚类,可以提供给用户更好的组织形式
自动生成的层次聚类结果为用户提供方便,根据聚类结果生成文摘等
用于文本分类和文本聚类的特征抽取方法的研究 笔记
虽然CHI 和MI 在英文文本分类问题中表现良好,但是在我们的实验中它们的表
现远远不及DF。经过仔细分析发现,造成这种差别的原因来自于两方面:使用类别信息的
特征抽取方法对低频词的倚重和中文相对于英文具有更高的特征空间维数。

你可能感兴趣的:(html,算法,文档)