pandas用众数填充缺失值_Python Pandas 处理缺失值

当我们拿到一份原始数据,首先会查看数据的基础信息,例如每一列数量统计,内存消耗、哪些列有缺失值等。完整的数据对于我们的数据分析工作来说意义重大,但对于实际收集数据的人却不是,所以我们经常会遇到数据缺失的情况。

重要的字段数据的缺失会影响进行数据分析后得出的结论,故不能随意舍弃这些字段。因此,数据预处理中非常重要的一项工作就是处理缺失值。

本文例子使用的是泰坦尼克号数据集,首先预览一下数据集的整体情况:

从data.info()函数可以查看到数据的基础信息:

Age样本量为714,正常样本量应为891,有少部分数据缺失;Cabin字段的样本量为204,缺失了绝大部分数据;Embarked字段的样本量为889,缺失2行数据;其他字段无缺失,样本量均为891。

一、填充缺失值

下面将使用Age字段来做例子讲解填充缺失值具体方法:

1、使用常数0填充缺失值

data['Age']=data['Age'].fillna(0)

2、使用均值填充缺失值

data['Age']=data['Age'].fillna(data['Age'].mean)

3、使用中值填充缺失值

data['Age']=data['Age'].fillna(data['Age'].median)

4、使用众数填充缺失值

data['Age']=data['Age'].fillna

你可能感兴趣的:(pandas用众数填充缺失值)