我们有时候会得到某些DataFrame数据帧中存在Na的数据,这些数据需要被清洗,我们可以使用dropna()或者fillna()等方法来处理。
dropna()比较简单粗暴,他会把包含Na的那一行删除掉,当然,也可以设置dropna()中的how参数,来设定删除的规则,如how='all’就表示删除全部数据都是Na的哪一行,我们来看一下效果。
代码:
import pandas as pd
dict_data = {
'student':["Li Lei","Han Meimei","Tom"],
'score' :[95,98,92],
'gender':['M','F','M']
}
DF_data = pd.DataFrame(dict_data,columns=['gender','student','score'],index=['a','b','c'])
reindex_list = ['c','a','b','d']
DF_data = DF_data.reindex(reindex_list)
print(DF_data)
DF_data = DF_data.dropna(how='all')
# DF_data = DF_data.fillna({'gender':'M','student':'unknown','score':0})
print(DF_data)
运行结果如下:
gender student score
c M Tom 92.0
a M Li Lei 95.0
b F Han Meimei 98.0
d NaN NaN NaN
gender student score
c M Tom 92.0
a M Li Lei 95.0
b F Han Meimei 98.0
[Finished in 6.2s]
可以看出,d行因为原部Na,被drop方法删掉了。
我们也可以使用fillna方法来对Na进行填充,一般的,我们可以指定填充的方法,一般用一个字典来制定方法。代码如下:
DF_data = DF_data.fillna({'gender':'M','student':'unknown','score':0})
这样,我们就可以把gender列的Na全部改为M,student列的Na全部改为unknown,score列的Na全部改为0。
运行结果如下:
gender student score
c M Tom 92.0
a M Li Lei 95.0
b F Han Meimei 98.0
d NaN NaN NaN
gender student score
c M Tom 92.0
a M Li Lei 95.0
b F Han Meimei 98.0
d M unknown 0.0
[Finished in 5.0s]
当然,我们也可以只填写一个参数,比如fillna(0),这样所有的Na都被修改为了0.
代码:
DF_data = DF_data.fillna(0)
运行结果:
gender student score
c M Tom 92.0
a M Li Lei 95.0
b F Han Meimei 98.0
d NaN NaN NaN
gender student score
c M Tom 92.0
a M Li Lei 95.0
b F Han Meimei 98.0
d 0 0 0.0
[Finished in 6.0s]