Python数据预处理填充缺失值

1.数据统计

a.用describe函数对数据快速统计汇总

分析df['taixin']

 df['taixin'].describe()

我们希望每一个数据都是float类型或者int类型,如图1-2。可以非常快速的统计出这一列的均值、最大最小值等等。如果之前没有处理好出现了文本,则结果如图1-1所示。

图1-1
图1-2

b.用distplot函数看数据

seaborn的distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能

sns.distplot(df['taixin']) 
plt.show()
图1-3

2.几种简单填充缺失值的方法

a.固定值填充

都填90

 df['taixin'] = df['taixin'].fillna('90')

b.均值填充

定要保证其余数据的都是int或float类型

df['taixin'] = df['taixin'].fillna(df['taixin'] .mean())

c.众数填充

一定要保证其余数据的都是int或float类型

df['taixin'] = df['taixin'].fillna(df['taixin'].mode()) 

d.上下数据填充

用前一个非缺失值填充

df['taixin'] = df['taixin'].fillna(method='pad')

用后一个非缺失值填充

df['taixin'] = df['taixin'].fillna(method='bfill')

e.插值法填充

前后非缺失值的均值填充

df['taixin'] = df['taixin'].interpolate()

你可能感兴趣的:(Python数据预处理填充缺失值)