前言
大家好,又到了Python爬虫+数据分析可视化的专题,今天案例是对美团网杭州市美食团购的数据进行分析,如果已经或者最近有打算开一家美食团购店铺的读者,希望本文能对你有所帮助。
数据获取
本次案例需要爬取的目标网站为美团网web端杭州市美食页面
方法还是和之前的一样,F12查看数据包,找到对应的url再使用requests爬取数据
由于这部分操作我们已经使用来很多次,并且也出过技术解析,所以此处就不再赘述,来看部分代码
for url in url_list:
print(n)
data = requests.get(url,headers = headers).json()
data1 = data['data']['poiInfos']
for i in range(len(data1)):
title = data1[i]['title']
area = data1[i]['address'][0:3]
score = data1[i]['avgScore']
comment = data1[i]['allCommentNum']
price = data1[i]['avgPrice']
coupons = coupon(data1[i]['dealList'])
try:
coupons_num = coupon1(data1[i]['dealList'][0]['title'])
except:
coupons_num = 0
diejia = coupon2(data1[i]['dealList'])
wifi = coupon3(data1[i]['dealList'])
ziti = coupon4(data1[i]['dealList'])
temp = [title,area,score,comment,price,coupons,coupons_num,diejia,wifi,ziti]
df.loc[p] = temp
p = p + 1
数据说明
其实目标URL就是一个API
可以看到提供的信息并不多,甚至连销售量都不提供,但对我们的分析并没有太多影响,来看下最终取得的数据与指标说明
词频分析
首先我们来看一下杭州餐厅店铺名的词云图与条形图
可以看到在800多家美食店铺中,餐厅名中出现最多的还是火锅、烧烤、蛋糕、咖啡,再绘制量化的条形图
所以如果你的店铺想走小众路线那就要尽量避免上述种类的美食。
价格分析
本节对杭州市美食店铺的整体价格情况进行分析,绘制出价格的直方图
可以看到,大多数的店铺团购均价低于100元,通过计算更能得到平均价低于100元的店铺占比达到89%,所以如果你想进军杭州美食团购业,价格定在100元以下会更符合市场。
影响因素分析
在这一节我们将使用箱线图对影响美食销量、评分的相关因素进行分析,先来看下评分相关的因子,首先来看下店铺优惠限制使用人数对评分的影响
可以看到,将优惠套餐设置为限制4人使用所获的评价最高,其次是0人也就是一次只能一个人使用和7人,所以如果想售卖优惠券的话,就限制4人使用吧!
接着看下其他几个指标对评分的影响,先看下商家是否提供Wi-Fi对评分的影响
上图分别是商家是否提供Wi-Fi与平均分的箱线图,其中越长的箱子表示提供WI-FI的商家数量越多,可以看到大多数商家提供了Wi-Fi并且其得分也要略高一点,再看看另外两个指标。
上图分别是优惠券是否可以叠加和商品自提与平均分的箱线图,可以看到,大多数商家都提供这两项功能,并且平均分比没有该选项的商家要高。所以如果想开一家美食店,这两项功能需要考虑哦。
区域对销量的影响
本届我们来分析不同区域对销量的影响,由于我们获得的数据并没有提供直接销售量,因此我们选择评论数来代表销量与杭州市不同区域进行分析
可以看到,江干区、萧山区、西湖区的商家最多,但是销量相对高一点的区是富阳区、拱墅区、萧山区、滨江区,所以如果想在杭州开一家美食店铺,萧山区是一个不错的选择。
结束语
通过上述分析,我们大致得到了如果想在杭州开一个美食店铺,选择在萧山区,价格在100元以下,并且设置优惠套餐同时提供优惠券叠加、WI-FI上网、商品自提等功能会获得更好的销量与评价。
由于数据并不够丰富,我们分析做到这里就结束了,如果能获取一些更多的信息比如:折扣力度、销售量、评论关键词等,我们就可以做一些更多的比如回归分析等统计分析。感兴趣的读者可以后台回复美团获取本次分析使用的数据。另外想要说的是,美团网的反爬实在是很强大,如果自己在请求数据的时候一定要注意设置请求头、代理IP与请求频率。一旦被识别直接封IP(别问我为什么知道/捂脸),如果需要具体的数据爬取解析,还请关注公众号:早起python~