import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('seaborn') #使用seaborn风格
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
%matplotlib inline
print('你已经成功载入所有库!')
new_sales = pd.read_csv("sales_data.csv")
#1.价格对需求的影响
sales_region = new_sales.groupby(["sales_region_code"]).agg('mean')
sales_region
#不同产品的价格分布
len(new_sales["item_code"].value_counts().sort_values())
scatter = sns.***************************
plt.show()
#好看一点的散点图
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.commons.utils import JsCode
x_data = range(len(new_sales["item_code"].value_counts().sort_values()))
y_data = new_sales.item_price
#封装一个散点图的函数,方便在下面的时候调用
def scatter_with_value_xaxis():
scatter = Scatter(init_opts=opts.InitOpts(theme='light',
width='1000px',
height='600px'))
**************
*******************
**********
**************
**************
return scatter
chart = scatter_with_value_xaxis()
chart.render_notebook()
地区上,可以看出102与105的销售量更大,也就是该地区需求更多,104地区需求较少 产品上,需求不一,但在大类别306需求更突出,细类别上407更多 价格集中分布在500-1200元 需求量集中在0-15间 销售额集中在15000以上,2018年额度最高,9-12月销售额较高
销售总价与销售量有0.85的相关,线上销售与所在地区0.64的相关,销售产品类型与销售量有0.1相关
线下与所在地区-0.64相关,销售量与价格也有负相关,销售额与所在月份负相关
与热图中的相关性观察结果相同。
大类别,小类别产品与价格有一定关联,销售额与销售量有关。
从图中可以看出,每天都有交均匀的单量,
不同月份,有个别月份的销售量不一致,有明显增幅, 随着功率增加,里程数减少。
与价格变量相关的变量
将x,y,hue进行更改
检验是否是线性相关,并用线性进行预测(不合适)