商业数据分析python_Python商品数据分析

一,提出问题

1.月均消费次数

2.月均消费金额

3.客单价

二,清洗数据

1.列名重命名

colNameDict = {'购药时间':'销售时间'}

salesDf.rename(columns = colNameDict,inplace=True)

2.缺失数据处理

#删除列(销售时间,社保卡号)中为空的行

#how='any' 在给定的任何一列中有缺失值就删除

salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

3.数据类型转换

字符串转换为数值(浮点型)

salesDf['销售数量'] = salesDf['销售数量'].astype('float')

salesDf['应收金额'] = salesDf['应收金额'].astype('float')

salesDf['实收金额'] = salesDf['实收金额'].astype('float')

字符串转换为日期数据类型

def splitSaletime(timeColSer):

timeList=[]

for value in timeColSer:

dateStr=value.split(' ')[0]

timeList.append(dateStr)

timeSer=pd.Series(timeList)

return timeSer

#获取“销售时间”这一列

timeSer=salesDf.loc[:,'销售时间']

#对字符串进行分割,获取销售日期

dateSer=splitSaletime(timeSer)

dateSer[0:3]

#修改销售时间这一列的值

salesDf.loc[:,'销售时间']=dateSer

salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],

format='%Y-%m-%d',

errors='coerce')

再次删除缺失数据

salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')

4.排序

salesDf=salesDf.sort_values(by='销售时间',

ascending=True,

na_position='first')

salesDf=salesDf.reset_index(drop=True)

salesDf.head()

5.异常值处理

三,构建模型

业务指标1:月均消费次数=总消费次数 / 月份数

业务指标2:月均消费金额 = 总消费金额 / 月份数

业务指标3:客单价=总消费金额 / 总消费次数

你可能感兴趣的:(商业数据分析python)