pandas 异常值处理

目录

  • 缺失值及异常值处理
    • 缺失值处理方法
      • 判断缺失值
      • 填充缺失值
      • 删除缺失值
    • 处理异常值
      • 数据保存

缺失值及异常值处理

缺失值处理方法

pandas 异常值处理_第1张图片

判断缺失值

df.isnull() #是否是缺失的判断

pandas 异常值处理_第2张图片

df['名字'].isnull() #确定列进行判断

填充缺失值

由于数据没有缺失值,添加一行:

dit={'名字':'复仇者联盟3','投票人数':153456,'类型':'剧情/科幻','产地':'美国','上映时间':'20180504','时长':142,'评分':np.nan,'首映地点':'美国' }
s=pd.Series(dit)
s.name=11 #变量最后一行数字加1
s
名字        复仇者联盟3
投票人数      153456
类型         剧情/科幻
产地            美国
上映时间    20180504
时长           142
评分           NaN
首映地点          美国
Name: 11, dtype: object
df=df.append(s)
df[-5:]

pandas 异常值处理_第3张图片

df[df['评分'].isnull()][:10]

在这里插入图片描述

df['评分'].fillna(np.mean(df['评分']),inplace=True) #用所有电影评分均值进行填充
df[-5:]

pandas 异常值处理_第4张图片

删除缺失值

df.dropna() 参数:

  • how=‘all’ :删除全为空值的行或列
  • inplace=True :覆盖之前的数据
  • axis=0(默认为行):选择行或列

处理异常值

异常值,即在数据集中存在不合理的值,又称之为离群点。比如年龄为-1,电脑的重量为1吨等,都属于异常值的范围。

df[df.投票人数<0] #查看投票人数小于0的值
df[df['投票人数']%1!=0] #查看投票人数除以1不为0的情况 

对于异常值,一般来说数量都会很少,在不影响数据分布情况下,我们直接删除就可以了。

数据保存

df.to_excel('电影修改.xlsx')

你可能感兴趣的:(python)