pandas 处理数据的一些常见操作,统一处理数据文件中的各种空值

我为一个使用pandas 的先手,在使用pandas 时总是出现各种问题,向大家分析一下。

1:首先是数据的读入

import pandas as pd
score_df=pd.read_csv("./学生成绩单.csv")

当读入大量数据是需要分批读入,防止内存不够

使用chunksize 来控制每次读入数据的行数

score_df=pd.read_csv("./学生成绩单.csv",chunksize=10000)

2:数据文件中空值的处理

由于dataframe中的空值与python的数据类型None不同,用可能是empty,nan等形式,在需要及进行判断是比较麻烦

可以将其统一转化为None,处理起来则要方便很多。

score_df=score_df.where(score_df.notnull(),None) #将空值同意转化为None

后面打算写一系列pandas 处理数据的系列,码字不易大家带那个赞哈。

pandas 数据分析系列欢迎大家阅读和提意见!!!

https://blog.csdn.net/yangheng1/article/details/108179976

 

你可能感兴趣的:(python,pandas)