详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法

详解利用基于gensim的TF-IDF算法实现基于文本相似度的推荐算法

  • TF-IDF的基本原理
    • 算法思想
    • 计算公式
    • 相似度计算原理
  • 微型图书推荐案例
    • 案例背景
    • 开发工具
    • 数据预处理
    • TF-IDF模型建立
    • TF-IDF计算
    • 相似度计算

TF-IDF的基本原理

算法思想

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 TF-IDF的主要思想是:如果某个词在某篇文章中出现的频率高,并且在其他文章中很少出现,则认为该词可以作为该篇文章的关键词。

计算公式

求某篇文章中某个词的TF-IDF的计算公式:

TF-IDF = TF × IDF

TF为词频,指的是该词在该文章中出现的频率;IDF为逆文档频率,衡量该词在所有文章中的出现频率。
TF的计算公式:

你可能感兴趣的:(推荐算法,自然语言处理,自然语言处理NLP,推荐算法,文本相似度,gensim,TF-IDF)