sklearn CountVectorizer中的min_df和max_df的含义

  vectorizer = CountVectorizer(min_df = 1, stop_words=stopwords)

CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,计算各个词语出现的次数。

CountVectorizer可指定的参数包含min_df、max_df、stop_words 等。下面讲经常调节的min_df、max_df参数的含义,他们都用于修剪术语。

1.max_df

可以设置为范围在[0.0 1.0]的float,也可以设置为没有范围限制的int。

这个参数的作用是作为一个阈值,当构造语料库的关键词集的时候,如果某个词的document frequence大于max_df,这个词不会被当作关键词。如果这个参数是float,则表示词出现的次数与语料库文档数的百分比,如果是int,则表示词出现的次数。

可见,max_df可用于删除过于频繁出现的术语,也称为“语料库特定的停用词”。

例如:

max_df = 0.50 表示“忽略出现在50%以上文档中的术语”.
max_df = 25 表示“忽略超过25个文档中出现的术语”.

max_df 默认为1.0(float),这意味着“忽略出现在100%以上文档中的术语”,而这是不可能的,因此,默认设置不会忽略任何术语,该参数不起作用。

2.min_df

类似于max_df,不同之处在于如果某个词的document frequence小于min_df,则这个词不会被当作关键词

min_df 用于删除不经常出现的术语。

例如:

min_df = 0.01表示“忽略出现在少于1%的文档中的术语”.
min_df = 5表示“忽略少于5个文档中出现的术语”.

min_df 默认为1(int),表示“忽略少于1个文档中出现的术语”,因此,默认设置不会忽略任何术语,该参数不起作用。

你可能感兴趣的:(机器学习,sklearn,深度学习,机器学习)