文本分类基础(二)——TF-IDF

一种加了权重的词频表示方式,找文档中重要的词,也就是关键词。

TF-IDF = TF * IDF。

其中

TF(词频,Term Frequency)= 某个词在文章中的出现次数

IDF(逆文档频率,Inverse Document Frequency)=log(文档总数/包含某词的文档数+1)

标准化后

TF = 某个词在文章中的出现次数/文章总词数(或出现最多次词的出现次数)

应用:

  • 找关键词:TF-IDF值排序,取前top-k。
  • 文本相似度:找出两个待比较文档中TF-IDF排名前top-k的关键词,利用余弦相似度来计算两个文本的相似度。
  • 自动文本摘要:拟定一个簇长度n,其实就是一个窗口长度,在这个窗口长度下,某个句子含有的关键词越多说明这个句子就越重要,就可以作为摘要的一句,可能还要加上重要的文头文尾,就可以简单的生成一个摘要。


参考链接:https://blog.csdn.net/rongsenmeng2835/article/details/108324023

你可能感兴趣的:(人工智能)