Python数据分析中缺失值处理方法

导入数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
data = pd.read_excel("data/attacks.xlsx")
data.head(5)

Python数据分析中缺失值处理方法_第1张图片
不管是分析什么数据,首先都要将其数据导入进来,才会有后续的问题分析。

查看数据的基本信息

data.info()

Python数据分析中缺失值处理方法_第2张图片
Python数据分析中缺失值处理方法_第3张图片
该命令行可以查看数据的基本信息,比如一共有多少条记录、多少个特征、字段名称、字段类型、缺失行的数量等。

缺失值处理——删除行或列

方法一

data=data.drop(columns=["Islamic_Date","Temperature_F"])
data.head(5)

说明:中括号里面是列名,可以添加多个列名
这种是直接将整列删除掉,可以删除多列。

方法二

data.drop(labels = ['Islamic_Date','Temperature_F'], axis = 1, inplace=True)
data.drop(labels = 'Islamic_Date', axis = 1, inplace=True)
data=data.drop(labels = data.index[data['Temperature_F'].isnull()], axis = 0)
data.head(5)

说明:labels后是列名,如果删除的是列的话,labels后可以添加多列一起删除,但是如果删除的是行的话,labels后只可以写一个列名,只针对一列来删除多行。
axis等于1时是删除列。axis等于0时是删除行。

缺失值处理——用某值填充

data.loc[data.Influencing_Event_Event.isnull(),"Influencing_Event_Event"]="0"

该命令行是用零来填充Influencing_Event_Event列中的缺失值

缺失值处理——中位数、众数、平均数填充

aver_Killed_Min=np.round(np.mean(data.Killed_Min),1)
data.loc[data.Killed_Min.isnull(),"Killed_Min"]=aver_Killed_Min
data.info()

说明:中位数(median)、众数(mode)、平均数(mean)
该命令行是处理Killed_Min列,用本列的平均值填充缺失值。
好了,目前就先写到这里啦,第一次写博客,如有不好的地方,还请多多指教,有空时再继续更新啦,byebye!

你可能感兴趣的:(Python数据分析中缺失值处理方法)