TF-IDF模型可运行python程序Demo:TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。比较容易理解的一个应用场景是当我们手头有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能够用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。
为了演示在Python中实现TF-IDF的方法,一些基于自然语言处理的预处理过程也会在本文中出现。如果你对NLTK和Scikit-Learn两个库还很陌生可以参考如下文章:
利用NLTK在Python下进行自然语言处理
Python自然语言处理:词干、词形与MaxMatch算法
TF-IDF的基本思想是:词语的重要性与它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。 但无论如何,统计每个单词在文档中出现的次数是必要的操作。所以说,TF-IDF也是一种基于 bag-of-word 的方法。
TF-IDF的算法原理
预处理过程中,我们已经把停词都过滤掉了。如果只考虑剩下的有实际意义的词,前我们已经讲过,显然词频(TF,Term Frequency)较高的词之于一篇文章来说可能是更为重要的词(也就是潜在的关键词)。但这样又会遇到了另一个问题,我们可能发现在上面例子中,madefortv、california、includ 都出现了2次(madefortv其实是原文中的made-for-TV,因为我们所选分词法的缘故,它被当做是一个词来看待),但这显然并不意味着“作为关键词,它们的重要性是等同的”。
因为”includ”是很常见的词(注意 includ 是 include 的词干)。相比之下,california 可能并不那么常见。如果这两个词在一篇文章的出现次数一样多,我们有理由认为,california 重要程度要大于 include ,也就是说,在关键词排序上面,california 应该排在 include 的前面。
于是,我们需要一个重要性权值调整参数,来衡量一个词是不是常见词。如果某个词比较少见,但是它在某篇文章中多次出现,那么它很可能就反映了这篇文章的特性,它就更有可能揭示这篇文字的话题所在。这个权重调整参数就是“逆文档频率”(IDF,Inverse Document Frequency),它的大小与一个词的常见程度成反比。
知道了 TF 和 IDF 以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。如果用公式来表示,则对于某个特定文件中的词语 titi 而言,它的 TF 可以表示为:
tfij=ni,j∑knk,jtfij=ni,j∑knk,j
其中 ni,jni,j 是该词在文件 djdj 中出现的次数,而分母则是文件 djdj 中所有词汇出现的次数总和。如果用更直白的表达是来描述就是,
TF(t)=Number of times term t appears in a documentTotal number of terms in the documentTF(t)=Number of times term t appears in a documentTotal number of terms in the document
某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数即可:
idfi=log|D||{j:ti∈dj}|idfi=log|D||{j:ti∈dj}|
其中,|D||D| 是语料库中的文件总数。 |{j:ti∈dj}||{j:ti∈dj}| 表示包含词语 titi 的文件数目(即 ni,j≠0ni,j≠0 的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1+|{j:ti∈dj}|1+|{j:ti∈dj}|。同样,如果用更直白的语言表示就是
IDF(t)=logeTotal number of documentsNumber of documents with term t in itIDF(t)=logeTotal number of documentsNumber of documents with term t in it
最后,便可以来计算 TFTF-IDF(t)=TF(t)×IDF(t)IDF(t)=TF(t)×IDF(t)。
利用Scikit-Learn实现的TF-IDF
因为 TF-IDF 在文本数据挖掘时十分常用,所以在Python的机器学习包中也提供了内置的TF-IDF实现。主要使用的函数就是TfidfVectorizer()。
最后需要说明的是,由于函数 TfidfVectorizer() 有很多参数,我们这里仅仅采用了默认的形式,所以输出的结果可能与采用前面介绍的(最基本最原始的)算法所得出之结果有所差异(但数量的大小关系并不会改变)。有兴趣的读者可以参考文献[4]来了解更多关于在Scikit-Learn中执行 TF-IDF 算法的细节。
参考文献
[1] http://www.tfidf.com
[2] http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
[3] http://www.cs.duke.edu/courses/spring14/compsci290/assignments/lab02.html
[4] http://scikit-learn.org/stable/modules/feature_extraction.html
参考文章
TF-IDF算法解析与Python实现