TF-IDF的简单理解

1、TF-IDF简介
TF:Term Frequency 词频,指的是给定一个词在该文档中出现的次数
IDF:Inverse Document Frequency  逆文档频率
可以简单的理解成:一个词语在一篇文章中出现的次数越多,同时在其他的所有文档中出现的次数越少,越能够代表该文章
2、TF IDF计算
2.1 TF
TF指的是某一个给定的词语在该文档中出现的次数,由于文档的长度不一,防止TF偏向于长文档,需要对其进行归一化处理,一般采取词频除以文章的总词数

TF = 在某一文档中词W出现的次数/该文档中所有的词条数目
2.2  IDF
如果包含词W的文档越少,IDF越大,则说明该词具有很好的类别区分能力,某一特定词语的IDF,可以由总文档数除以包含该词语的文档的数目,再将得到的商取对数得到
IDF = 文档的总数/(包含该词条的文档数+1)
为了防止分母为0,则对分母加了1

2.3  TF-IDF
某一特定文件内的高词语频率,以及该词在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF,因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
TF-IDF = TF*IDF

3、例子
一个文档中,总共有1000个词,“中国”出现5次、 “体育”出现20次,总共有100份文档,其中包含“中国”的有30份文档,包含“体育”的有10份文档
中国: TF = 5/1000 = 0.005  IDF = log(100/(30+1))  大概为0.51
体育: TF = 20/1000 = 0.02  IDF = log(100/(10+1))  大概为0.95

中国:TF-IDF = 0.005*0.51 = 0.00255
体育:TF-IDF = 0.02*0.95 = 0.019

从计算的结果可以看出,“中国”比“体育”小,如果对文档选择关键词,则选择“体育”

这是我对TF-IDF的简单理解,有不对的地方,互相交流一下


 

你可能感兴趣的:(机器学习,TF,IDF)