第十一届泰迪杯数据挖掘挑战赛-产品订单数据分析B题(完整代码)--数据分析--第二部分

完整代码需要的请移至社区获得。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('seaborn') #使用seaborn风格
import warnings
warnings.filterwarnings('ignore')

plt.rcParams['font.sans-serif'] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False
%matplotlib inline
print('你已经成功载入所有库!')
new_sales = pd.read_csv("sales_data.csv")
#1.价格对需求的影响
sales_region = new_sales.groupby(["sales_region_code"]).agg('mean')
sales_region
#不同产品的价格分布
len(new_sales["item_code"].value_counts().sort_values())

scatter = sns.***************************
plt.show()

#好看一点的散点图
from pyecharts.charts import *
from pyecharts import options as opts
from pyecharts.commons.utils import JsCode

x_data = range(len(new_sales["item_code"].value_counts().sort_values()))
y_data = new_sales.item_price
#封装一个散点图的函数,方便在下面的时候调用
def scatter_with_value_xaxis():
    scatter = Scatter(init_opts=opts.InitOpts(theme='light',
                                              width='1000px',
                                              height='600px'))
    **************
    *******************
    **********
    **************
    **************

    return scatter

chart = scatter_with_value_xaxis()
chart.render_notebook()

地区上,可以看出102与105的销售量更大,也就是该地区需求更多,104地区需求较少 产品上,需求不一,但在大类别306需求更突出,细类别上407更多 价格集中分布在500-1200元 需求量集中在0-15间 销售额集中在15000以上,2018年额度最高,9-12月销售额较高

 

 

销售总价与销售量有0.85的相关,线上销售与所在地区0.64的相关,销售产品类型与销售量有0.1相关

线下与所在地区-0.64相关,销售量与价格也有负相关,销售额与所在月份负相关

与热图中的相关性观察结果相同。

大类别,小类别产品与价格有一定关联,销售额与销售量有关。

从图中可以看出,每天都有交均匀的单量,

不同月份,有个别月份的销售量不一致,有明显增幅, 随着功率增加,里程数减少。

与价格变量相关的变量

 1  可根据自己需要对不同columns进行更改

将x,y,hue进行更改

 

 

 

 

 

 

 

 

 检验是否是线性相关,并用线性进行预测(不合适)

 

 

你可能感兴趣的:(数据挖掘,数据分析,python)