Python 主要数据预处理函数

1、interolate

interplot是Scipy的一个子库,包含了大量的插值函数,如拉格朗日插值、样条插值、高维插值等。使用前需要 用 from scipy.interpolate  import * 导入相应的插值函数。

 

使用格式:f=scipy.interpolate.lagrange(x,y)智力仅仅展示了一维数据的拉格朗日插值命令,其中x  y为对应的自变量和因变量数据,差值完成后,可以通过f(a)计算新的插值结果。

 

 

 

 

2、unique 

去除数据中的重复元素,得到单值元素列表。它既是Numpy库的一个函数(np.unique()),也是series对象的一个方法。

 

使用格式:

Np.unique(D)    D是一维数据,可以是list、array、Series

D.unique()      D是Pandas的Series对象

 

D=pd.Series([1,1,2,3,5,5])

>>>D.unique()

array([1, 2, 3, 5],dtype=int64)

 

 

import numpy as np

>>>np.unique(D)

array([1, 2, 3, 5],dtype=int64)

 

 

3、isnull/notnull

判断某个元素是否是空值/非空值

 

使用格式:

D.isnull()/D.notnull()   D是Series对象  返回一个布尔Series     可以通过D[D.isnull()]  或D[D.notnull()]来找出D中的空值或非空值。

 

4、random

 

random是Numpy的一个字库,可以用该库下的各种函数生成服从特定分布的随机矩阵,抽样时可使用。

 

使用格式:

Np.random.rand(k,m,n……)生成一个k*m*n*……的随机矩阵,其元素均匀分布在区间(0,1)上

 

 

Np.random.randn(k,m,n……)生成一个k*m*n*……的随机矩阵,其元素服从标准正态分布。

 

 

5、PCA

对指标变量矩阵进行主成分分析。使用前需要用from sklearn.decomposition import PCA导入该函数

 

使用格式:

Model=PCA()     然后训练model.fit(D)   D为要进行主成分分析的数据矩阵,训练结束后获取模型的参数。

如.components_获取特征向量,以及  .explained_variance_ratio_ 获取各个属性的贡献率。

 

 

fromsklearn.decomposition import PCA

importnumpy as np

 

D=np.random.rand(10,4)

 

pca=PCA()

 

pca.fit(D)

 

print(pca.components_)

 

print(pca.explained_variance_ratio_)

 

你可能感兴趣的:(Python)