数据分析与挖掘-python常用数据预处理函数

数据预处理往往在数据分析和数据挖掘领域占到了很大的比重,甚至在机器学习这些海量数据处理的场合,数据预处理也是最核心的工作。介绍几个预处理阶段常用的库函数。

1.interpolate

插值函数,Scipy的子库,包含大量的插值函数,如拉格朗日插值,样条插值,高维插值等。

示例代码:

from scipy.interpolate import *
f = scipy.interpolate.lagrange(x,y)
# 其中x和y分别为自变量和因变量数据

2.unique

numpy库函数,也是Pandas中Series对象的一个方法。

示例代码:

import numpy as np
import pandas as pd
data = [1, 2, 3]
# data可以是list,ndarray,Series
np.unique(data)
data =pd.Series(data)
data.unique()

3.random

numpy的子库,生成特定分布的随机矩阵。

示例代码:

import numpy as np
np.random.randn(k, m, n)
# 生成k*m*n的随机矩阵,元素服从正态分布

4.isnull/notnumm

Series对象的方法,返回布尔Series。

示例代码:

import pandas as pd
data = pd.Series()
D.isnull()
D[D.notnull()] 

5.PCA

主成分分析函数,是Scikit-Learn下的建模对象。

示例代码:

from sklearn.decomposition import PCA
import numpy as np
D = np.random.rand(10,4)
pca = PCA()
pca.fit(D)
PCA(copy=True, n_components=Noone, whiten=False)
# 输出模型的特征向量
print(pca.components_)
# 输出各个成分各自的方差百分比
print(pca.explained_variance_ratio_)

具体代码包括实战项目可以查看我的github。

你可能感兴趣的:(数据分析与挖掘)