本文采用的是之前的一个上海商铺数据,里面主要包括了店名、类别、评论数、星级、价格、以及评分,评分主要包括环境、口味、服务,因此也是从这个三个维度作雷达图。
在这里,提出我们的问题:
1.各个类目的评分如何?
2.评分与评论数、星级的关联度?
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from math import pi
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
#设置字体,作图中才能显示中文
f = open(r'E:\BaiduNetdiskDownload\商铺数据.csv',encoding='utf-8')
shops = pd.read_csv(f)
#导入数据,由于数据名称中带有中文,因此要用这种形式
shops.head()
首先把数据导入进来,然后观察数据
在这里要对comment,price进行处理
shops['comment'] = shops['comment'].str.replace('我要点评','0')
shops['comment'] = shops['comment'].str.replace('条点评','')
shops['comment'] = shops['comment'].apply(lambda x : int(x))
#将comment中的中文全部去掉,没有评论的用0代替
shops['price'] = shops['price'].str.replace('人均 -','NaN')
shops['price'] = shops['price'].str.replace('人均 ¥','')
#同样将中文去掉
shops = shops[['classify','shop_name','comment','star','price','口味','环境','服务']]
#选取其中这些特征
首先,根据第一个问题:各个类目的评分如何。我们在这里选择雷达图,只要这种雷达图做出来,其他情况下都没什么问题,也许雷达图在这里不是最好的表达方式,但是本文的目的在于学习雷达图的制作。
classifys = list(shops['classify'].unique())
#将所有类目作个列表
rating_classify = shops.groupby('classify').mean()[['口味','环境','服务']]
#这三个指标是我们做来作雷达图的指标
color = ['b','r','y']
plt.figure(figsize=(15,10))
idx = 1
for i in classifys: #遍历所有类目
features = dict(rating_classify.loc[i]) #选取每个类目中的值,作个字典
classify_ = features.keys() #字典的键为口味,环境,服务
value = list(features.values()) #字典的值则为评分
value += value[:1] #value尾巴加上第一个值,用于连接首尾
N = len(classify_) #根据特征切分整圆
angles = [n/float(N) * 2 * pi for n in range(N)] #划分弧度
angles += angles[:1] #同样用于连接首尾
plt.subplot(1,3,idx,polar=True) #polar则代表用弧度来作图,这是雷达图的关键
plt.xticks(angles[:-1],classify_,color='grey',size = 8)
#雷达图其实类似于折线图首尾连接形成一个圆,它的基本要点同样是找到x和y值,这里x值为特征,y则为评分,
#只不过x轴的刻度变成了弧度也就是angles,而弧度上的刻度则为特征
plt.ylim(0,10)
#设置y的范围,根据数值来确定
plt.grid(True)
plt.tick_params('y', labelleft=False)
plt.plot(angles,value,linewidth=1,linestyle = 'solid')
#画折现即可,区别就是x为angles
plt.fill(angles,value,c = color[idx-1],alpha = 0.3)
idx += 1
plt.title(i)
由图可知,三者不同特征评分相似。接下来我们只研究在美食中,细分不同条件观察评分。
首先根据评论数,先对评论数分为三个等级(低评论,中评论,高评论)代表评论数的不同。然后根据每个等级作雷达图,代码如下:
shops['comment'] = pd.cut(shops['comment'],[-1,1000,10000,22000],labels = ['少评论','中评论','高评论'])
#首先根据评论数作分级处理,这里用到cut函数
food = shops[shops['classify'] == '美食']
idx = 1
plt.figure(figsize = (30,6))
for comments_,features in food.groupby('comment').mean()[['口味','环境','服务']].iterrows():
print(comments_)
print(features)
feature = dict(features)
value = list(feature.values())
value += value[:1]
print(value)
class_comment = feature.keys()
N = len(class_comment)
angle = [n/float(N) * 2 * pi for n in range(N)]
angle += angle[:1]
plt.subplot(polar = True)
plt.xticks(angle,class_comment,size = 10,color='grey')
plt.ylim(0,10)
plt.grid(True)
plt.tick_params('y',labelleft=False)
plt.plot(angle,value,linewidth = 2,linestyle='solid',label = comments_)
plt.legend(loc = 'best')
#plt.fill(angle,value,c = color[idx-1],alpha = 0.3)
#plt.title(comments_)
idx += 1
可以看出,高评论数的商家往往比低评论数的商家具有更高的评分。由于这里的评论并没有分的很细,在实际情况可以进一步分得更细来进行观察。随后是针对star绘制雷达图。
star = list(shops['star'].unique())
plt.figure(figsize = (8,6))
idx = 1
for star_,features in food.groupby('star').mean()[['口味','环境','服务']].iterrows():
plt.figure(figsize = (8,6))
plt.subplot(polar = True)
feature = dict(features)
value = list(feature.values())
value += value[:1]
star_comment = feature.keys()
N = len(star_comment)
angle = [n/float(N) * 2 * pi for n in range(N)]
print(N)
angle += angle[:1]
#plt.subplot(7,1,idx,polar = True)
plt.xticks(angle,class_comment,size = 10,color='grey')
plt.ylim(0,9)
plt.grid(True)
plt.tick_params('y',labelleft=False)
plt.plot(angle,value,linewidth = 1,linestyle='solid',label = star_)
plt.legend(loc = 'best')
#plt.fill(angle,value,c = color[idx-1],alpha = 0.3)
#plt.title(comments_)
idx += 1
这里选取部分图,可以看出星级越高评分也越高,各方面均衡上升才能保证更高的水准,因此一个商铺要想做好,必须在环境口味服务各方面都下功夫。