算法----TF-IDF(加权)

TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词

TF=(某词在文档中出现的次数/文档的总词量)

IDF=loge(文档总数/包含该词的文档数+1)

一、TF-IDF算法步骤

算法过程:先计算出文档中每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词作为关键词进行输出。

1. 计算词频:

算法----TF-IDF(加权)_第1张图片

2. 计算逆文档频率:

(包含某词语的文档越少,IDF值越大,说明该词语具有很强的区分能力)

3.TF-IDF值(权重):

 

二、实例:

为了讲解文本数据的向量化,假设我们有4个文本,所有文本一共有6个不同的词,如下所示。

 

 

你可能感兴趣的:(大数据计算,Ai)