sklearn中fit、transform、fit_transform

  • fit,我理解为计算机对数据特征进行理解,得到一种转换数据的规则。例如N-gram模型中文本特征提取,fit后可以得到feature_names(一个单词顺序词组),某些词会组成词组作为单独的特征放到向量表示中去。
  • transform,可以理解为利用fit得出的转换规则,把样本转成所需要的向量等。
  • fit_transform等价于先fit后tranform

假如把文本样本集分为A、B两个子集。利用A集fit的结果去转换B集,和直接用B集去fit_transform的结果是不同的

vectorizer = CountVectorizer(...)
#用A集fit,得到以A集为基础的转换规则
vectorizer.fit(A)
x_A = vectorizer.transform(A)
x_B = vectorizer.transform(B)
x_B1 = vectorizer.fit_transform(B)

你可能感兴趣的:(sklearn)