python | Pandas库导入Excel数据(xlsx格式文件)函数:read_excel()
python | Pandas库导入csv格式文件函数:read_excel()
数据源
读取数据
缺失值查找
1. info()
2. isnull()
缺失值处理方式一:删除
1. dropna()
2. dropna(how='all')
缺失值处理方式二:填充
1. fillna()
2. fillna({'a':'b'})
import pandas as pd
student = pd.read_excel(r'E:\2022Python\数据预处理.xlsx')
# 使用info()函数,可以看出每列的缺失值个数。
print(student.info())
输出结果如下:
RangeIndex: 9 entries, 0 to 8
Data columns (total 6 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 学号 8 non-null float64
1 姓名 8 non-null object
2 性别 8 non-null object
3 班级 7 non-null float64
4 入学日期 6 non-null float64
5 课程数 8 non-null float64
dtypes: float64(4), object(2)
memory usage: 560.0+ bytes
None
# 使用isnull()函数,若缺失则为True。
print(student.isnull())
输出结果如下:
学号 姓名 性别 班级 入学日期 课程数
0 False False False False False False
1 False False False False True False
2 False False False False False False
3 True True True True True True
4 False False False False True False
5 False False False True False False
6 False False False False False False
7 False False False False False False
8 False False False False False False
# dropna()函数,删除含有缺失值的行。
print(student.dropna())
输出结果如下:
学号 姓名 性别 班级 入学日期 课程数
0 1.0 小明 男 1.0 2019.0 5.0
2 3.0 小亮 男 2.0 2020.0 7.0
6 7.0 小晶 女 4.0 2021.0 5.0
7 8.0 小绵 女 1.0 2019.0 4.0
8 9.0 李华 男 4.0 2020.0 3.0
# dropna(how='all')函数,删除整行都缺失的行。
print(student.dropna(how='all'))
输出结果如下:
学号 姓名 性别 班级 入学日期 课程数
0 1.0 小明 男 1.0 2019.0 5.0
1 2.0 小红 女 1.0 NaN 6.0
2 3.0 小亮 男 2.0 2020.0 7.0
4 5.0 小美 女 3.0 NaN 8.0
5 6.0 小聪 男 NaN 2021.0 9.0
6 7.0 小晶 女 4.0 2021.0 5.0
7 8.0 小绵 女 1.0 2019.0 4.0
8 9.0 李华 男 4.0 2020.0 3.0
# fillna():对所有缺失值进行统一填充。
print(student.fillna('缺失'))
输出结果如下:
学号 姓名 性别 班级 入学日期 课程数
0 1.0 小明 男 1.0 2019.0 5.0
1 2.0 小红 女 1.0 缺失 6.0
2 3.0 小亮 男 2.0 2020.0 7.0
3 缺失 缺失 缺失 缺失 缺失 缺失
4 5.0 小美 女 3.0 缺失 8.0
5 6.0 小聪 男 缺失 2021.0 9.0
6 7.0 小晶 女 4.0 2021.0 5.0
7 8.0 小绵 女 1.0 2019.0 4.0
8 9.0 李华 男 4.0 2020.0 3.0
# fillna({'a':'b'}):对某些列进行填充。
print(student.fillna({'班级':'9', '入学日期':'2022'}))
输出结果如下:
学号 姓名 性别 班级 入学日期 课程数
0 1.0 小明 男 1.0 2019.0 5.0
1 2.0 小红 女 1.0 2022 6.0
2 3.0 小亮 男 2.0 2020.0 7.0
3 NaN NaN NaN 9 2022 NaN
4 5.0 小美 女 3.0 2022 8.0
5 6.0 小聪 男 9 2021.0 9.0
6 7.0 小晶 女 4.0 2021.0 5.0
7 8.0 小绵 女 1.0 2019.0 4.0
8 9.0 李华 男 4.0 2020.0 3.0