文本分析系列——词语权重算法:TF-IDF算法

简介

     TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

  • 词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率;
  • 反文档频率(inverse document frequency,IDF),即某一个给定词语在文档集合中出现的次数与文档总数的商;

理论

如果某个词或短语在一篇文章中出现的频率高,并且在文档集合中出现频率低,则认为此词或者短语具有很好的类别区分能力。

 

适用场合

文本分类、基于向量空间模型的文本分类方法

 

关联技术

中文分词,文本特征抽取,基于向量空间模型的文本分类方法

 

计算方法

第一步:计算TF,某关键词在该文档中出现的次数,

利用分词技术,统计出现的次数,计作TFn(改进方法采用频率即 Cn/单词总数),其中n代表文档数;

 

第二步,计算IDF,某关键词在文档集合中出现的普遍性度量

IDFn=log(T/KiF) 其中T代表文档总数,KiF代表包含关键词Ki的文档数;

 

第三部,计算TF-IDF

Wni=TF*IDF=Cn*log(T/Kif) 其中n代表某文档标号n,i代表某关键词标号i

 

缺陷及改进

1.在传统的TF-IDF算法中,TF只单纯计算关键词出现的次数,并未考虑文档本身的长度(大文档可能包含关键词多,但权重未必高)

采用词语频率代替次数,进行归一化处理

 

2.在TF-IDF算法中并没有体现出单词的位置&顺序信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。

对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高词语权重计算的精确度。

你可能感兴趣的:(文本语言处理)