常用的数据预处理方法

一、删除处理
data.drop()
默认参数axis=0,表示对行index进行操作,如需对columns进行操作需要更改默认参数为axis=1;默认参数inplace=False,表示该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe,如需直接在原数据上进行删除操作,需要更改默认参数为inplace=True,删除后数据无法恢复
常用的数据预处理方法_第1张图片
data.dropna()
DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
官方文档为过滤缺失数据,how中any表示带缺失值的所有行,'all’指清除全是缺失值的行;thresh,int,保留含有int个非空值的行;subset对特定的列进行缺失值删除处理;axis、inplace与drop函数一致
在这里插入图片描述
二、填充数据
fillna()函数
fillna()会填充nan数据,返回填充后的结果。如果希望在原DataFrame中修改,则把inplace设置为True。dataframe.fillna() 对空值进行填充,一般就直接在括号里添加需要填充的数值
在这里插入图片描述
data.mean() 计算平均值(data[‘Age’].mean() 计算Age列的平均值)
三、将分类变量转化为数值型变量
1、astype
type获取数据类型;dtype 数组元素的类型;astype 修改数据类型
参考文章:https://www.cnblogs.com/fuhang/p/8045973.html
常用的数据预处理方法_第2张图片
在这里插入图片描述
2、先用unique获取列的值转化为list,再替换
在这里插入图片描述
unique用法:获取列值
常用的数据预处理方法_第3张图片
tolist用法:将数组或矩阵转化为列表
常用的数据预处理方法_第4张图片
apply()用法
参考文章:https://blog.csdn.net/chenyulancn/article/details/40142797
格式:apply(func,*args,**kwargs)
用法:当一个函数的参数存在于一个元组或者一个字典中时,用来间接的调用这个函数,并肩元组或者字典中的参数按照顺序传递给参数
解析:args是一个包含按照函数所需参数传递的位置参数的一个元组,是不是很拗口,意思就是,假如A函数的函数位置为 A(a=1,b=2),那么这个元组中就必须严格按照这个参数的位置顺序进行传递(a=3,b=4),而不能是(b=4,a=3)这样的顺序
kwargs是一个包含关键字参数的字典,而其中args如果不传递,kwargs需要传递,则必须在args的位置留空
返回值:即函数的返回值
常用的数据预处理方法_第5张图片
常用的数据预处理方法_第6张图片

你可能感兴趣的:(机器学习,机器学习)