案例实操

import pandas as pd
salesDf=pd.read_excel(fileNameStr,sheet_name='Sheet1',dtype=str)
salesDf.head()
fileNameStr='D:\知识管理\数据分析\跟猴子学习人工智能核心技术\数据分析(高级)(Python)\第3关:数据分析的基本过程\朝阳医院2018年销售数据.xlsx'
xls=pd.ExcelFile(fileNameStr)
salesDf=xls.parse('Sheet1')
salesDf.head(3)
购药时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额
0 2018-01-01 星期五 1616528.0 236701.0 强力VC银翘片 6.0 82.8 69.00
1 2018-01-02 星期六 1616528.0 236701.0 清热解毒口服液 1.0 28.0 24.64
2 2018-01-06 星期三 12602828.0 236701.0 感康 2.0 16.8 15.00
salesDf.shape
(6578, 7)
salesDf.loc[:,'销售数量'].dtype
dtype('float64')
salesDf.describe()
社保卡号 商品编码 销售数量 应收金额 实收金额
count 6.576000e+03 6.577000e+03 6577.000000 6577.000000 6577.000000
mean 6.091254e+09 1.015869e+06 2.386194 50.473803 46.317510
std 4.889284e+09 5.131153e+05 2.375202 87.595925 80.976702
min 1.616528e+06 2.367010e+05 -10.000000 -374.000000 -374.000000
25% 1.014234e+08 8.614560e+05 1.000000 14.000000 12.320000
50% 1.001650e+10 8.615070e+05 2.000000 28.000000 26.600000
75% 1.004882e+10 8.690690e+05 2.000000 59.600000 53.000000
max 1.283612e+10 2.367012e+06 50.000000 2950.000000 2650.000000
salesDf.dtypes
购药时间     object
社保卡号    float64
商品编码    float64
商品名称     object
销售数量    float64
应收金额    float64
实收金额    float64
dtype: object
colNameDict={
   '购药时间':'销售时间'}
colNameDict={
   '购药时间':'销售时间'}
salesDf.rename(columns=colNameDict,inplace=True)
salesDf.head()
销售时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额
0 2018-01-01 星期五 1.616528e+06 236701.0 强力VC银翘片 6.0 82.8 69.00
1 2018-01-02 星期六 1.616528e+06 236701.0 清热解毒口服液 1.0 28.0 24.64
2 2018-01-06 星期三 1.260283e+07 236701.0 感康 2.0 16.8 15.00
3 2018-01-11 星期一 1.007034e+10 236701.0 三九感冒灵 1.0 28.0 28.00
4 2018-01-15 星期五 1.015543e+08 236701.0 三九感冒灵 8.0 224.0 208.00
print('删除缺失值前大小',salesDf.shape)
删除缺失值前大小 (6578, 7)
salesDf=salesDf.dropna(subset=['销售时间',<

你可能感兴趣的:(案例实操)