python数据分析练习(二)

# -*- coding: utf-8 -*-
#Author Mr.xu
#python数据分析之房价平均价格
import pandas
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
import pandas as pd
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#短时间不需要再次登录
file = 'F:\\数据分析数据\\药.csv'

f = open(file,encoding='gbk',errors='ignore')

df = pd.read_csv(f)

new_column = {'购药时间':'销售时间'} #把列名购药时间替换为销售时间

df.rename(columns=new_column,inplace=True) #使用rename方法替换

sales  = df.dropna(subset=['社保卡号','商品名称'],how='any') #删除Nan值,how=any指的是任何有空值就删.all指的是所有列值是Nan

sale = DataFrame(sales)

sale['销售时间'],sale['销售星期'] = sale['销售时间'].str.split(' ',1).str #销售时间格式为2018-11-25 星期一.分解为两列日期和星期

sale.sort_values('销售时间',ascending=True) #根据values排序,后面可以指定升序还是降序

sale.drop_duplicates(subset=['社保卡号','销售时间'],inplace=True) #删除重复值

total =  sale.shape[0]
 
sale['销售时间'] = pd.to_datetime(sale['销售时间'],format='%Y-%m-%d',errors = 'coerce') #格式化销售时间


month = (sale['销售时间'].max() - sale['销售时间'].min()).days #计算最大销售时间和最小销售时间之间的天数

buy_rate = (total / month)

x = list(sale['销售星期'])

y = list(sale['销售数量'])

plt.plot(x,y)

plt.xlabel('时间')

plt.ylabel('数量')

plt.title('购买情况')

for a,b in zip(x,y):
    plt.text(a,b+0.05,b,ha='center',va='bottom',fontsize=9) #可以在坐标轴上标记出数值.即Y值

plt.show()



 

你可能感兴趣的:(python数据分析练习(二))