相似度计算之(三)——TF-IDF

对于任意文章,采用分词器分词后,为了选取关键词,区分词的重要程度,可使用TF-IDF算法
TF-IDF介绍:
相似度计算之(三)——TF-IDF_第1张图片
逆向文件频率(IDF)是一个词语普遍重要性的度量,IDF分母为dft+1,是为了预防分母为0的情况,即,没有文章中包含这个词的情况

TF-IDF = 词条t在D中的频率 * lg 总的文章数/包含t的文章数

其中,应删除词也在统计范围中,只是TF-IDF的值比较小

词条频率:对词的归一化,防止偏向长的文件

逆向文件频率:为了减低不重要词对文件相似度的贡献

以具体例子加以说明:
假如一篇文件的总词语数是100个,而词语“奶牛”出现了3次,那么“奶牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“奶牛”一词。所以,如果“奶牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12

你可能感兴趣的:(机器学习)