df.isnull() #是否是缺失的判断
df['名字'].isnull() #确定列进行判断
由于数据没有缺失值,添加一行:
dit={'名字':'复仇者联盟3','投票人数':153456,'类型':'剧情/科幻','产地':'美国','上映时间':'20180504','时长':142,'评分':np.nan,'首映地点':'美国' }
s=pd.Series(dit)
s.name=11 #变量最后一行数字加1
s
名字 复仇者联盟3
投票人数 153456
类型 剧情/科幻
产地 美国
上映时间 20180504
时长 142
评分 NaN
首映地点 美国
Name: 11, dtype: object
df=df.append(s)
df[-5:]
df[df['评分'].isnull()][:10]
df['评分'].fillna(np.mean(df['评分']),inplace=True) #用所有电影评分均值进行填充
df[-5:]
df.dropna() 参数:
异常值,即在数据集中存在不合理的值,又称之为离群点。比如年龄为-1,电脑的重量为1吨等,都属于异常值的范围。
df[df.投票人数<0] #查看投票人数小于0的值
df[df['投票人数']%1!=0] #查看投票人数除以1不为0的情况
对于异常值,一般来说数量都会很少,在不影响数据分布情况下,我们直接删除就可以了。
df.to_excel('电影修改.xlsx')