fit: 用于计算训练数据的均值和方差,后面就会用均值和方差来“训练”数据。
tansform_fit:计算训练数据均值和方差的同时将数据转换为正态分布。
tansform:在fit的基础上,将数据转换为正态分布,仅涉及转换。
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler.fit(X_train)
standardizedX_train = scaler.transform(X_train)
standardizedX_test = scaler.transform(X_train)
注意: 测试数据和预测数据的标准化的方式要和训练数据标准化的方式一样, 必须用同一个scaler来进行transform,前提假设默认它们的分布相同。
sklearn里的封装好的各种算法使用前都要fit,fit对于整个代码而言,为后续API服务。fit之后调用各种API方法,transform只是其中一个API方法;fit对于算法而言,相当于拟合出具体的模型参数,后续可基于模型进行一些一系列操作(如预测等)。