TF-IDF算法以及场景应用

解释

TF(Term Frequency,缩写为TF):词频,某一词条(item)出现的频度。为归一化要除以该篇文档的所有item。
T F = i t e m 出 现 的 次 数 该 篇 文 档 所 有 的 i t e m TF=\frac{item出现的次数}{该篇文档所有的item} TF=itemitem
IDF(Inverse Document Frequency,缩写为IDF):逆文本频率。需要有一个语料库corpus。公式如下
T F = − l o g ( 文 档 出 现 i t e m 的 篇 数 + 1 语 料 库 中 的 文 档 数 ) TF=-log(\frac{文档出现item的篇数+1}{语料库中的文档数}) TF=log(item+1)
故该item的TF-IDF的值:
T F − I D F = T F ∗ I D F TF-IDF=TF*IDF TFIDF=TFIDF

应用

如果我在一个搜索引擎输入关键词 i t e m 1 , . . . , i t e m n item_1,...,item_n item1,...,itemn,那么该引擎后端就会遍历所有语料库,计算每篇文章该 i t e m 1 , . . . , i t e m n item_1,...,item_n item1,...,itemn T F − I D F TF-IDF TFIDF值相加得到 T F − I D F 1 , . . . , T F − I D F n TF-IDF_1,...,TF-IDF_n TFIDF1,...,TFIDFn,然后向搜索者推荐TF-IDF最高的那几篇文章。

你可能感兴趣的:(机器学习)