机器学习之数据预处理

1.导入需要的库,Numpy,Pandas

2.导入数据集

3.处理丢失数据,数据可能是因为各种原因丢失,未了不降低机器学习模型的性能,需要处理数据,我们可以用整列的平均值,或中间值替换丢失的数据。我们用sklearn。preprocessing库中的Imputer类完成这项任务。

4.解析分类数据,分类数据是指含有标签值而不是数字值的变量,取值范围通常是固定的,例如yes,no不能用于模型的数值计算,所以需要解析成数字。为实现这一功能,我们可以用sklearn.preprocessing库中的LabelEncoder类。

5.拆分数据集为训练集和测试集,两者比例一般是8:2,我们用sklearn.crossvalidation库中的train_test_split()方法。

6.特征缩放,大部分算法使用两点间的欧式距离计算,但此特征在幅度,单位,和范围姿态问题上变化很大。在距离计算中,高幅度特征权重更大。可用特征标准化或Z值归一化解决,导入sklearn.preprocessing库中的Stan-dardScalar类。

转自:https://github.com/MLEveryday/100-Days-Of-ML-Code

 

你可能感兴趣的:(机器学习之数据预处理)