NLP task3特征选择_文本挖掘预处理之TF-IDF

文本挖掘预处理之TF-IDF

corpus=[“I come to China to travel”,
“This is a car polupar in China”,
"I love tea and Apple ",
“The work is to write some papers in science”]

[u’and’, u’apple’, u’car’, u’china’, u’come’, u’in’, u’is’, u’love’, u’papers’, u’polupar’, u’science’, u’some’, u’tea’, u’the’, u’this’, u’to’, u’travel’, u’work’, u’write’]
可以看到一共有19个词,所以4个文本都是19维的特征向量。而每一维的向量依次对应了下面的19个词。另外由于词"I"在英文中是停用词,不参加词频的统计。

如果我们直接将统计词频后的19维特征做为文本分类的输入,会发现有一些问题。比如第一个文本,我们发现"come","China"和“Travel”各出现1次,而“to“出现了两次。似乎看起来这个文本与”to“这个特征更关系紧密。但是实际上”to“是一个非常普遍的词,几乎所有的文本都会用到,因此虽然它的词频为2,但是重要性却比词频为1的"China"和“Travel”要低的多。如果我们的向量化特征仅仅用词频表示就无法反应这一点。因此我们需要进一步的预处理来反应文本的这个特征,而这个预处理就是TF-IDF。

1. TF-IDF概述

TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。

你可能感兴趣的:(NLP,NLP,TF-IDF,文本挖掘)