Python数据预处理填充缺失值

1.分析df['taixin']

# 用describe函数对数据快速统计汇总

df['taixin'].describe()

    我们希望每一个数据都是float类型或者int类型,如图1-2。可以非常快速的统计出这一列的均值、最大最小值等等。如果之前没有处理好出现了文本,则结果如图1-1所示。

图1-1


图1-2

【用distplot函数看数据】

#seaborn的distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能 

sns.distplot(df['taixin']) 

plt.show()


图1-3

2.几种简单填充缺失值的方法

【固定值填充】

#都填90

df['taixin'] = df['taixin'].fillna('90')

【均值填充】

#一定要保证其余数据的都是int或float类型

df['taixin'] = df['taixin'].fillna(df['taixin'] .mean())

【众数填充】

#一定要保证其余数据的都是int或float类型

df['taixin'] = df['taixin'].fillna(df['taixin'] .mode()) 

【上下数据填充】

#用前一个非缺失值填充

 df['taixin'] = df['taixin'].fillna(method='pad') 

#用后一个非缺失值填充

 df['taixin'] = df['taixin'].fillna(method='bfill') 

【插值法填充】

#前后非缺失值的均值填充

 df['taixin'] = df['taixin'].interpolate() 



今天先到这,日后慢慢补充

你可能感兴趣的:(Python数据预处理填充缺失值)