我爬取分析美团网,原来北京上海Top10美食是它们

我爬取分析美团网,原来北京上海Top10美食是它们_第1张图片


作者:Kying,西二旗程序单身汪一枚。从事智慧旅游、数据挖掘。新晋python 小白,希望与志同道合者一起煮酒论英雄,数据森麟特邀作者。


数据爬取三步曲之前方有坑

工作需求需要采集OTA网站的美食数据,某个城市的饭店类型情况等。对于老饕来说这不算个事。。。然而最后的结果是中午晚饭都没有时间去吃了。。。情况如下

我爬取分析美团网,原来北京上海Top10美食是它们_第2张图片

Chrome F12直接定位get请求,response的结果是json,研究下get的参数发现有个奇怪的参数token?!

 

我爬取分析美团网,原来北京上海Top10美食是它们_第3张图片

先不管他直接修改参数翻页请求数据!!!

 

我爬取分析美团网,原来北京上海Top10美食是它们_第4张图片


数据爬取三步曲之开始填坑

问题来了!纠结半天后发现这个token是有时效的,而且是js生成的。。。这也不是问题,get请求行不通我们还有selenuim。悲催的是美团真的是大厂直接封杀selenuim

 

我爬取分析美团网,原来北京上海Top10美食是它们_第5张图片


数据爬取三步曲之将坑填平

又回到原点。没办法只能从token下手了经过一番查找发现一个js文件

 

我爬取分析美团网,原来北京上海Top10美食是它们_第6张图片

嗯。。。好吧继续,因为之前没有用python直接调用js,百度一番发现pyexecjs、PyV8等都可以。悲催的是我的python2.7安装pyexecjs后一直不能正常使用,PyV8没有问题。只是PyV8安装过程太心酸

废话不多说直接上代码:

我爬取分析美团网,原来北京上海Top10美食是它们_第7张图片

我把js文件存放到本地python直接使用PyV8直接解析执行token的js事件

 

640

程序自动生成token,迫不及待接续解析json数据入库

 

我爬取分析美团网,原来北京上海Top10美食是它们_第8张图片

 

我爬取分析美团网,原来北京上海Top10美食是它们_第9张图片

 

测试完成先抓取北京和上海数据进行数据可视化

在统计师发现美团还是对数据经行了限制每个类型的餐饮场所最多显示每页32个一共32页。也就是32*32=1024个

我爬取分析美团网,原来北京上海Top10美食是它们_第10张图片

数据可视化


北京、上海美食各类型数量占比情况 

 

我爬取分析美团网,原来北京上海Top10美食是它们_第11张图片

我爬取分析美团网,原来北京上海Top10美食是它们_第12张图片

 

 

看以看出川湘、烧烤烤肉和西餐在两地的数量占比都是最多的。撸串、麻小果然不分南北。


我爬取分析美团网,原来北京上海Top10美食是它们_第13张图片

 

数据中有每家店的品论数量我们可以从中分析出每一类美食的总评论情况来展示受欢迎情况,因展示效果我们只展示top10

北京、上海市top10美食情况

我爬取分析美团网,原来北京上海Top10美食是它们_第14张图片

我爬取分析美团网,原来北京上海Top10美食是它们_第15张图片

 

 北京和上海两地火锅荣登榜首哈

下面我们对比下两地同类美食的平均价格的情况: 

我爬取分析美团网,原来北京上海Top10美食是它们_第16张图片

魔都消费水平已经超过帝都啦。。。哈哈哈

以上只是个人简单分析不代表权威发布仅供娱乐,欢迎各界朋友交流学习。

好了我的泡面好了。。。嗯真香!!!

我爬取分析美团网,原来北京上海Top10美食是它们_第17张图片

§ §

Python中文社区作为一个去中心化的全球技术社区,以成为全球20万Python中文开发者的精神部落为愿景,目前覆盖各大主流媒体和协作平台,与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系,拥有来自十多个国家和地区数万名登记会员,会员来自以公安部、工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司,全平台近20万开发者关注。

扩展阅读


用Python爬取手机APP


30行代码实现微信自动回复机器人


100行代码爬取全国所有必胜客餐厅信息


如何简单高效地部署和监控分布式爬虫项目


抖音小姐姐视频爬虫


投稿邮箱:[email protected]


我爬取分析美团网,原来北京上海Top10美食是它们_第18张图片

点击下方阅读原文免费成为数据科学俱乐部会员

你可能感兴趣的:(我爬取分析美团网,原来北京上海Top10美食是它们)