稀疏数据[sparse data]和异常值数据[outliers data]的缩放、集中

稀疏数据[sparse data]和异常值数据[outliers data]的缩放、集中

(一)稀疏数据[sparse data]的Scale centered

1.Sparse数据通常不做centering data,否则会破坏稀疏数据本身的结构

2.Sparse数据通常可以做Scale,如果各种特征处于不同的尺度上

3.Scale函数和StandardScaler函数均可以接受scipy.sparse构造出来的稀疏矩阵,但是参数with_mean = False

4.可以对Sparse数据使用tranform方法,但是不可以使用RobustScaler方法

5.需要严重注意的是Scaler 通常情况接受Compressed Sparse Rows 或者 Compressed Sparse Columns也就是CSR和CSC格式的数据

(二)异常数据[outliers data]的Scale 和 centered

1.异常值feature的缩放和集中通常情况建议使用robust_scale和RobustScale方法

2.对于某些特征尤其是线性相关的特征需要对其进行洗白、集中和缩放,洗白:sklearn.decomposition.PCA with True

3.所有的Scale方法通常都会支1D的数组

你可能感兴趣的:(sklearn)