一、关于sklearn fit 和transform
sklearn里的封装好的各种算法使用前都要fit;
fit之后,可以调用各种API方法,transform是其中一个API;
fit原义指的是安装、使适合的意思,有点train的含义,但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是确定的,最后得到一个可用于转换的有价值的信息。(目前可以简单理解为:fit获取了关于数据的有效信息,transform利用fit提供的有效信息进行特征转换)
二、fit、transform、fit_transform
常用情况分为两大类
1、数据预处理中的使用
fit(): 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。
transform(): 在fit的基础上,进行标准化,降维,归一化等操作。
fit_transform(): fit和transform的组合,既包括了训练又包含了转换。
使用方法
第一步:fit_transform(trainData)
对trainData进行fit的整体指标,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的);
第二步:transform(testData)
对testData使用同样的均值、方差、最大最小值等指标进行转换,从而保证train、test处理方式相同。
注意:
必须先用fit_transform(trainData),之后再transform(testData)
直接transform(testData),程序会报错
如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。
2、各种算法的fit,transform方法
例1:CountVectorizer
sklearn的CountVectorizer库根据输入数据获取词频矩阵(稀疏矩阵);
fit(raw_documents) :根据CountVectorizer参数规则进行操作,比如滤除停用词等,拟合原始数据,生成文档中有价值的词汇表;
transform(raw_documents):使用符合fit的词汇表或提供给构造函数的词汇表,从原始文本文档中提取词频,转换成词频矩阵;
fit_transform(raw_documents, y=None):学习词汇词典并返回术语 - 文档矩阵(稀疏矩阵)。
用法:
from sklearn.feature_extraction.textimport CountVectorizer
# 语料
corpus = ['This is the first document.','This is the this second second document.','And the third one.', 'Is this the first document?']
# 将文本中的词转换成词频矩阵
vectorizer = CountVectorizer()
# 计算某个词出现的次数
X = vectorizer.fit_transform(corpus)
# 查看词频结果
print(X.toarray())
如果有训练数据有测试数据,则:
x_train = vectorizer.fit_transform(train_corpus)
x_test = vectorizer.transform(test_corpus)
例2: TfidfTransformer
from sklearn.feature_extraction.textimport CountVectorizer
from sklearn.feature_extraction.textimport TfidfTransformer
# 语料
corpus = ['This is the first document.','This is the this second second document.','And the third one.', 'Is this the first document?']
# 将文本中的词转换成词频矩阵
vectorizer = CountVectorizer()
# 计算某个词出现的次数
X = vectorizer.fit_transform(corpus)
# 类调用
transformer = TfidfTransformer()
# 将词频矩阵统计成TF-IDF值
tfidf = transformer.fit_transform(X)
# 查看数据结构tfidf[i][j]表示i类文本中tf-idf权重
print(tfidf.toarray())
如果有训练数据有测试数据,则:
X_train = vectorizer.fit_transform(train_corpus)
X_test = vectorizer.transform(test_corpus)
tfidf_train = transformer.fit_transform(X_train)
tfidf_test = transformer.transform(X_test)
三、从另一角度理解fit和transform
fit方法的主要工作是获取特征和目标值有价值的信息,transform方法用来对特征进行转换。
从可利用信息的角度来说,转换分为无信息转换和有信息转换。
无信息转换是指不利用任何其他信息进行转换,比如指数、对数函数转换等。
有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。
无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。
有监督转换指既利用了特征信息又利用了目标值信息的转换,比如通过模型选择特征、LDA法降维等。
只有有信息的转换类的fit方法才实际有用,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:都是通过分析特征和目标值,提取有价值的信息。对于转换类来说是某些统计量;对于模型来说可能是特征的权值系数等。
另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数,即有监督学习的算法fit(x,y)传两个参数。
无监督学习的算法是fit(x),即传一个参数,比如降维、特征提取、标准化。