TF-IDF简单解析

前言

当你需要要给一大堆的文档提取关键词的时候,如果能够让机器自动提取的话,想必能够省下不少时间,_。这个问题似乎要涉及到文本挖掘的一些技术了,感觉逼格太高了点。
今天我要介绍的一个非常经典而且有效的方法,TF-IDF这个方法十分简单,但是效果显著。词频、逆文档频率(TF-IDF)在自然语言处理中,应用十分广泛,也是提取关键词的常用方法。

主要思想

如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF(term frequency) 词频

字面意思,统计每个类别中词的个数。

IDF(inverse document frequency) 逆文档频率

TF-IDF简单解析_第1张图片
阮一峰文中提到的公式

词越常见,分母越大,逆文档频率就越小。为了避免分母为0+1平滑处理。

以下是scikit中的idf 公式:


未平滑
平滑

TF-IDF

TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。值越高,则表示这个词在当前类的文档中更能。

scikit 简单实践

你可能感兴趣的:(TF-IDF简单解析)