数据仓库中的数据是从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。数据清洗就是把“脏”的“洗掉”,包括检查数据一致性,处理无效值和缺失值等。也就是说数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,具体要求如下:
要求:
1.读入data1二维数据表,打印输出前五行和后十行(15分)
2.将特征 “月还贷款额”dalete(15分)
3.对列名为“还款状态”进行操作groupby。在此基础上,并求各分组“贷款金额”列的sum和mean(15分)
4.计算“贷款金额”的mean值、min值、max值(15分)
5.计算“贷款金额”列的var、std(15分)
6.对数据进行sort操作,按照发放贷款日期:descending,贷款金额:ascending(6分)(25分)
题中是一些pandas库的基本操作的实践应用,多加练习,孰能生巧。
# 将一篇代码看成一个故事,那么,开始了。
# 导入我们需要使用的pands库
import pandas as pd
# 读取excel数据
# 同理,我们可以读取各种各样的文件数据
data = pd.read_excel(r'../datas/data1.xls')
# print(data)
# 打印输出前五行和后十行(15分)
# 对head 和tail 的练习,head从头开始读取,tail从尾部往前反向读取
print('前五行\n',data.head(5))
print('后十行\n',data.tail(10))
# 2.将特征 “月还贷款额”dalete(15分)
# 删除比较特殊,del 和所删除的属性,以空格连接
del data['月还贷款额']
# print('前五行\n',data.head(5))
# 3.对列名为“还款状态”进行操作groupby。在此基础上,并求各分组“贷款金额”列的sum和mean(15分)
# 分组操作属于pandas中很常用的操作,要灵活练习,熟练掌握。
gg = data[['还款状态','贷款金额']].groupby(by='还款状态')
print(gg.sum())
print(gg.mean())
# 4.计算“贷款金额”的mean值、min值、max值(15分)
# 5.计算“贷款金额”列的var、std(15分)
# 计算每列属性的各种加减乘除等……一些列操作如下所示
moneys = data[['贷款金额']]
print(moneys.mean())
print(moneys.min())
print(moneys.max())
print(moneys.var())
print(moneys.std())
# 6.对数据进行sort操作,按照发放贷款日期:descending,贷款金额:ascending(6分)(25分)
# 排序操作,有升序,降序,按照题意要求进行处理
data.sort_values(by=['发放贷款日期','贷款金额'],ascending=[False,True])
# print('后十行\n',data.tail(10))