利用商铺数据作雷达图

本文采用的是之前的一个上海商铺数据,里面主要包括了店名、类别、评论数、星级、价格、以及评分,评分主要包括环境、口味、服务,因此也是从这个三个维度作雷达图。
在这里,提出我们的问题:
1.各个类目的评分如何?
2.评分与评论数、星级的关联度?

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns 
from math import pi
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
#设置字体,作图中才能显示中文
f = open(r'E:\BaiduNetdiskDownload\商铺数据.csv',encoding='utf-8')
shops = pd.read_csv(f)
#导入数据,由于数据名称中带有中文,因此要用这种形式
shops.head()

首先把数据导入进来,然后观察数据


image.png

在这里要对comment,price进行处理

shops['comment'] = shops['comment'].str.replace('我要点评','0')
shops['comment'] = shops['comment'].str.replace('条点评','')
shops['comment'] = shops['comment'].apply(lambda x : int(x))
#将comment中的中文全部去掉,没有评论的用0代替
shops['price'] = shops['price'].str.replace('人均                                    -','NaN')
shops['price'] = shops['price'].str.replace('人均                                        ¥','')
#同样将中文去掉
shops = shops[['classify','shop_name','comment','star','price','口味','环境','服务']]
#选取其中这些特征

首先,根据第一个问题:各个类目的评分如何。我们在这里选择雷达图,只要这种雷达图做出来,其他情况下都没什么问题,也许雷达图在这里不是最好的表达方式,但是本文的目的在于学习雷达图的制作。

classifys = list(shops['classify'].unique())
#将所有类目作个列表
rating_classify = shops.groupby('classify').mean()[['口味','环境','服务']]
#这三个指标是我们做来作雷达图的指标
color = ['b','r','y']
plt.figure(figsize=(15,10))
idx = 1
for i in classifys: #遍历所有类目
    features = dict(rating_classify.loc[i]) #选取每个类目中的值,作个字典
    classify_ = features.keys()  #字典的键为口味,环境,服务
    value = list(features.values())  #字典的值则为评分
    value += value[:1] #value尾巴加上第一个值,用于连接首尾
    N = len(classify_)  #根据特征切分整圆
    angles = [n/float(N) * 2 * pi for n in range(N)]  #划分弧度
    angles += angles[:1] #同样用于连接首尾
    plt.subplot(1,3,idx,polar=True) #polar则代表用弧度来作图,这是雷达图的关键
    plt.xticks(angles[:-1],classify_,color='grey',size = 8) 
#雷达图其实类似于折线图首尾连接形成一个圆,它的基本要点同样是找到x和y值,这里x值为特征,y则为评分,
#只不过x轴的刻度变成了弧度也就是angles,而弧度上的刻度则为特征
    plt.ylim(0,10)
#设置y的范围,根据数值来确定
    plt.grid(True)
    plt.tick_params('y', labelleft=False)
    plt.plot(angles,value,linewidth=1,linestyle = 'solid')
#画折现即可,区别就是x为angles
    plt.fill(angles,value,c = color[idx-1],alpha = 0.3)
    idx += 1
    plt.title(i)
image.png

由图可知,三者不同特征评分相似。接下来我们只研究在美食中,细分不同条件观察评分。
首先根据评论数,先对评论数分为三个等级(低评论,中评论,高评论)代表评论数的不同。然后根据每个等级作雷达图,代码如下:

shops['comment'] = pd.cut(shops['comment'],[-1,1000,10000,22000],labels = ['少评论','中评论','高评论'])
#首先根据评论数作分级处理,这里用到cut函数
food = shops[shops['classify'] == '美食']
idx = 1
plt.figure(figsize = (30,6))
for comments_,features in food.groupby('comment').mean()[['口味','环境','服务']].iterrows():
    print(comments_)
    print(features)
    feature = dict(features)
    value = list(feature.values())
    value += value[:1]
    print(value)
    class_comment = feature.keys()
    N = len(class_comment)
    angle = [n/float(N) * 2 * pi for n in range(N)]
    angle += angle[:1]
    plt.subplot(polar = True)
    plt.xticks(angle,class_comment,size = 10,color='grey')
    plt.ylim(0,10)
    plt.grid(True)
    plt.tick_params('y',labelleft=False)
    plt.plot(angle,value,linewidth = 2,linestyle='solid',label = comments_)
    plt.legend(loc = 'best')
    #plt.fill(angle,value,c = color[idx-1],alpha = 0.3)
    #plt.title(comments_)
    idx += 1
image.png

可以看出,高评论数的商家往往比低评论数的商家具有更高的评分。由于这里的评论并没有分的很细,在实际情况可以进一步分得更细来进行观察。随后是针对star绘制雷达图。

star = list(shops['star'].unique())
plt.figure(figsize = (8,6))
idx = 1
for star_,features in food.groupby('star').mean()[['口味','环境','服务']].iterrows():
    plt.figure(figsize = (8,6))
    plt.subplot(polar = True)
    feature = dict(features)
    value = list(feature.values())
    value += value[:1]
    star_comment = feature.keys()
    N = len(star_comment)
    angle = [n/float(N) * 2 * pi for n in range(N)]
    print(N)
    angle += angle[:1]
    #plt.subplot(7,1,idx,polar = True)
    plt.xticks(angle,class_comment,size = 10,color='grey')
    plt.ylim(0,9)
    plt.grid(True)
    plt.tick_params('y',labelleft=False)
    plt.plot(angle,value,linewidth = 1,linestyle='solid',label = star_)
    plt.legend(loc = 'best')
    #plt.fill(angle,value,c = color[idx-1],alpha = 0.3)
    #plt.title(comments_)
    idx += 1
image.png

image.png

这里选取部分图,可以看出星级越高评分也越高,各方面均衡上升才能保证更高的水准,因此一个商铺要想做好,必须在环境口味服务各方面都下功夫。

你可能感兴趣的:(利用商铺数据作雷达图)