TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档

TFIDF并不能用来说明特征词的重要与否,只是用来区分不同文档!

文本分类入门(番外篇)特征选择与特征权重计算的区别     一开始感觉好烧脑,,后来深入分析了一下,懂了    不禁觉得该文章说的真好,指纹的例子极好~~


注意:根据TF的定义,tf是该词在该文档(一个!)中的频率,IDF是对总文档数m除以该词所在的文档数x取对数,对于整个文档集来说m是固定不变的,那么x越大,IDF越小(看IDF数学公式),TFIDF越小,该词越不能代表该文档;反过来说,x越小,IDF越大,TFIDF越大,该词越能代表该文档。极端例子来说,如果该词只存在于第五个文档中,其他文档中都没有,那么该词就越能代表第五个文档,此时你不能说该词就重要,它只是能够代表第五个文档,而不能代表剩余其他任何一个文档。

说权重代表的是差别,而不是优劣!

如此,你就再也不会拿TFIDF去做特征选择了。


那么,为什么论文中还在用呢,况且准确率还那么高呢?

因为,那是全监督学习!!半监督学习就无用武之地了!!根据TFIDF公式,计算得出该词能够代表这个文档,你就把该文档标注为该词,你说准确率高不高呢?!

也就是说,TFIDF只能用来全监督学习,因为该词只是能够代表该文档,对于文档集中其他文档都代表不了,更何况一个新的文档呢?!

这听起来有点自欺欺人的赶脚~~


所以,就像引文中说的,再提到TFIDF时,把权重忘掉吧,就用量化或者区分来代替好了。

那怎么看谁重要谁不重要呢?这就依赖于具体的选择方法如何来量化重要程度,对卡方检验信息增益这类方法来说,量化以后的得分越大的特征就越重要(也就是说,有可能有些方法,是得分越小的越重要)。

你可能感兴趣的:(NLP)