Day29 - 2018-05-02

清洗数据

很多时候,我们拿到的数据总是不够符合要求,有空值、有重复数据、有异常数据、有些数据的格式不利于操作,在进行数据分析之前,需要做数据预处理。

使用df.fillna()可以将NaN填充为指定值,一般我们将该列的平均值当做缺省值进行填充,默认是返回填充后的新的一列数据,设置参数replace=True可以让它在原有数据上替换。例如df[column_name].fillna(df[column_name].mean(), inplace=True)

使用df.duplicated()会列出该列是否曾经出现过,True or False。可以使用sum(df.duplicated())统计重复的行数。可以使用df.drop_duplicates(inplace=True)删除重复行。

pandas内集成了matplotlib,试一试用它来数据可视化。直方图 df.hist()会画出每一列的直方图,也可以用df[column_name].hist()。hist()只是一个简便方法,可以用plot(kind='hist')更灵活的配置。plot(x=column_name1, y=column_name2, kind='scatter')指定x、y轴的散点图....这里有相关文档。

你可能感兴趣的:(Day29 - 2018-05-02)